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Precede de recherche de contemu uotamment d'extraits communs entre deux fielders 

informatiques 

La presente invention conceme la recherche de contenu informatique, en parti culier d'extraits 
5 communs entre deux fichiers. 

Plus particulierement, il s'agit de rechercher au moins un extrait commun entre un premier 
fichier et un second fichier, sous forme de donnees binaires. 

10 Les techniques actuellement connues proposent une recherche a Pidentique, generalement 
donnee par donnee. La lenteur de la recherche, pour des applications a des fichiers de grandes 
tallies, devient redhibitoire. 

La presente invention vient ameliorer la situation. 

15 

Elle propose a cet effet un procede de recherche de contenu qui comporte une preparation 

prealable du premier fichier precite au moins, comprenant les etapes suivantes : 

a) segmenter le premier fichier en une succession de paquets de donnees, de taille choisie, et 

identifier des adresses de paquets dans ledit fichier, 
20 b) associer a Padresse de chaque paquet une signature numerique definissant un etat en logique 

fioue parmi au moins trois etats : "vrai", n faux" et "indetennine", ladite signature resultant 

d f un calcul combinatoire sur des donnees issues dudit fichier, 
le procede se poursuivant ensuite par une recherche d'extrait commun, proprement dite, 
comprenant ies etapes suivantes : 
25 c) comparer les etats de logique floue associes a chaque adresse de paquet du premier fichier, 

avec des etats de logique floue determines a partir de donnees issues du second fichier, 
d) eliminer de ladite recherche d'extrait commun des couples d'adresses respectives des 

premier et second fichiers dont les etats logiques respectifs sont "vrai" et "faux" ou "faux" 

et "vrai", et conserver les autres couples d'adresses identifiant des paquets de donnees 
30 susceptibles de comporter ledit extrait commun, 

A Petape b), on affecte preferentiellement a un paquet de donnees Petat : 
"vrai" si toutes les donnees du paquet verifient une premiere condition, 
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- ~ f Taux" "sFtoute^es^doiifSes "du paquet vMffeitt'We' seconde con'dition, contraire a la 
premiere condition, 

et "indetermine" si certaines donnees du paquet verifient la premiere condition, tandis que 
d'autres donnees du paquet verifient la seconde condition, 

5 

Dans un mode de realisation prefere, on applique aux donnees d'un fichier un traitement 
prealable a Tetape b) et comportant les etapes suivantes : 

al) on considere les donnees du fichier en tant que suite d'echantillons obtenus a une 
frequence d'echantillonnage predeterminee, et de valeurs codees selon un code de 
10 representation binaire, et 

a2) on applique un filtre numerique sur lesdits echantillons, adapte pour minimiser une 
probability d'obtention de I'etat "indetermine" pour les signatures numeriques associees 
aux paquets d'echantillons. 

15 Avantageusement, 1'application dudit filtre numerique revient a : 

appliquer une transformee spectrale aux donnees echantillonnees, 

appliquer un filtre passe-bas a ladite transformee spectrale, 

et appliquer une transformee spectrale inverse apres ledit filtre passe-bas. 

20 Ce filtre passe-bas opere preferentiellement sur une bande de frequences comprenant 
sensiblement 1'intervalle : 

[-Fe/2(k-l), +Fe/2(k-l)], 
ou Fe est ladite frequence d'echantillonnage, 
et k est le nombre d'echantillons que comporte un paquet. 

25 

Avantageusement, le filtre numerique comporte un nombre predetermine de coefficients de 
meme valeur, et la reponse frequentielle du filtre passe-bas associe s'exprime, en fonction de la 
frequence f, par une expression du type : 
sin(PLf.T)/(PI.f.T), 
30 oil sin() est la fonction sinus, et avec : 

- PI- 3,1416, et 

- T=(K-i)/Fe ou K est ledit nombre predetermine de coefficients et Fe ladite frequence 
d'echantillonnage. 
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Preferentiellement, le filtre numerique est mi filtre a valeur moyenne d'un nombre 
predetermine de coefficients, et en ce que la difference entre deux echantillons filtres 
successi fs est proportionnelle a la difference entre deux echantillons non filtres, 
5 respectivement d'un premier rang et d'un second rang, espaces dudit nombre predetermine de 
coefficients, et en ce que le calcul desdits echantillons filtres est effectue en exploitant cette 
relation pour reduire le nombre d' operations de calcul a effectuer. 

Le nombre predetermine de coefficients du filtre est preferentiellement superieur ou egal a 
10 2k- 1, ou k est le nombre d'echantillons que comporte un paquet, valeur qui pourra etre 
designee par la suite par le terme rapport d'index. 

Preferentiellement : 

1'etat "vrai" est affecte a l'adresse d'un paquet si, pour ce paquet, tous les echantillons 
15 filtres ont une valeur superieure a une valeur de reference choisie, 

1'etat "faux" est affecte a l'adresse d'un paquet si, pour ce paquet, tous les echantillons 
filtres ont une valeur inferieure a une valeur de reference choisie, et 

1'etat "indetermine" est affecte a l'adresse d'un paquet si, pour ce paquet, les echantillons 
filtres ont, pour certains, une valeur inferieure a ladite valeur de reference, et, pour d'autres 
20 echantillons filtres, une valeur superieure a ladite valeur de reference. 

Avantageusement, pour tout echantillon filtre r n , d'ordre donne n, ladite valeur de reference est 
calculee en moyennant les valeurs des echantillons non filtres f k , sur un nombre choisi 
d'echantillons consecutifs non filtres autour d'un echantillon non filtre f n , du meme ordre 
25 donne n. 

Les valeurs des echantillons filtres sont preferentiellement ramenees, pour comparaison, a une 
valeur seuil nulle, et les echantillons filtres r' n s'expriment alors par une somme du type : 

r\ = K ref ^ f n + k —K ]T f n+k , 

30 ou : 

- f n+k sont des echantillons non filtres obtenus a l'etape al), 

K est le nombre de coefficients du filtre numerique, preferentiellement choisi pair, et 
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- "K ref est ledit nombre d'echantillons non filtres autour d'un echantillon non filtre f n , 
preferentiellement choisi pair et superieur audit nombre de coefficients K. 

Dans une realisation avantageuse, on applique la somme precitee aux echantillons non filtres f n 
5 une pluralite de fois, selon un tTaitement effectue en parallele, en faisant varier respectivement 
le nombre de coefficients K. Cette mesure permet alors de determiner une pluralite de 
signatures numeriques, sensiblement independantes statistiquement 

Dans une realisation particuliere, les etats flous associes au premier fichier au moins sont 
10 codes chacun sur au moins deux bits. 



Dans cette realisation, les etats flous determines pour un nombre de coefficients K le plus 
faible sont codes sur des bits de poids le plus faible et les etats flous determines pour un 
nombre de coefficients K plus grand sont codes sur des bits suivants, jusqu'a un nombre total 
15 choisi de bits. On comprendra que ce nombre choisi peut etre adapte avantageusement a la 
taille des donnees binaires utilisee par les microprocesseurs d'entites informatiques pour des 
operations logiques de comparaison. 

Preferentiellement, chaque echantillon filtre r n s'exprime comme une somme du type : 

h 

20 

- f(n+i) sont des echantillons non filtres, 

- filtrej sont des coefficients d'un filtre numerique, integrant, le cas echeant, une valeur seuil 
ramenee a zero, 

et Ton choisit un nombre k d'echantillons non filtres que comporte un paquet, au minimum egal 
25 a 2 et inferieur ou egal a une expression du type : 

(TEF-I r I 2 +l)/2, ou TEF est une taille minimale souhaitee des extraits communs recherches. 
Cette mesure permet avantageusement d' assurer un recouvrement d'un paquet de k donnees 
utilise pour le calcul d'une seule donnee de signature numerique. 



1er depot 



Dans cette realisation, 

- pour une valeur donnee TEF de la taille minimale souhaitee d'extraits communs 
recherches, on determine une plage de valeurs utilisables pour ledit nombre k 
d'echantillons non filtres que comporte un paquet, 

- et, pour chaque valeur utilisable du nombre k, on determine une taille optimale TES d'une 
succession de donnees de signatures numeriques pour laquelle la detection d'un extrait 
commun de taille TEF est garantie. 

Ladite taille optimale TES est alors inferieure ou egale a une expression du type : 
E[(TEF-Ii-I 2 +l)/k]-l, ou E(X) designe la partie entiere de X. 

Pour une application ou les deux fichiers a comparer component des donnees representatives 
de caracteres alphanumeriques, notamment du texte et/ou un code informatique ou genetique, 
le procede comporte avantageusement : 

- un premier groupe d'etapes comportant la formation des signatures numeriques et leur 
comparaison, pour une recherche grossiere, et 

- un second groupe d'etapes, notamment pour une recherche fine, comportant une 
comparaison a l'identique dans les plages d'adresses verifiant la comparaison grossiere, 

On considere alors les donnees d'un fichier en tant que suite d'echantillons, avec un nombre 
choisi k d'echantillons par paquet, la valeur de ce nombre choisi k etant optimises initialement 
en recherchant un minimum d'operations de comparaison a effectuer. 

Pour I-optimisation du nombre choisi k d'echantillons par paquet, on tient compte 
avantageusement d'un nombre total : 

- d'operations de comparaison de signatures numeriques a effectuer, et 

- d'operations de comparaison de donnees a l'identique a effectuer ensuite, 

ce nombre total d'operations etant minimum pour un ensemble fini de nombres k. 

Le procede prevoit avantageusement une etape au cours de laquelle on obtient une information 
relative a une taille minimale souhaitee d'extraits communs recherches, utilisee pour optimiser 
ledit nombre choisi k d'echantillons par paquet. Ce nombre optimal k d'echantillons par paquet 
varie alors sensiblement comme ladite taille minimale, de sorte que plus la taille minimale 
souhaitee d'extraits communs recherches est grande, plus le nombre total d'operations de 
comparaison diminue, et done plus la duree de la recherche d'extrait commun est courte. 
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Pour d'autres applications telles que la recherche de contenu de fichiers audio, video, ou 
autres, la recherche d'extraits communs consiste preferentiellement en un unique groupe 
d'etapes comportant la formation des signatures numeriques et leur comparaison. Le nombre de 
5 donnees par paquet est alors optimise en se fixant initialement un indice de confiance 
caracterisant un seuil acceptable de probability de fausse detection d'extraits conxmuns. 

Dans un mode de realisation general prefere, pour le premier fichier : 

on applique l'echantillonnage a une frequence d'echantillonnage choisie, 
10 le filtrage numerique correspondant a un filtrage passe-bas dans 1'espace des frequences, et 

- la combinaison des echantillons filtres pour obtenir des signatures numeriques a l'etat 
"vrai", "faux" ou "indetermine", associees aux adresses respectives du premier fichier, 

tandis que, pour le second fichier : 
on applique rechantillonnage a une frequence d'echantillonnage choisie, 
15 le filtrage numerique correspondant a un filtrage passe-bas dans 1'espace des frequences, et 

- on determine l'etat logique associe a chaque paquet d 5 echantillons filtres a partir de Tetat 
logique associe a un seul echantillon filtre choisi dans chaque paquet (de maniere 
preferentielle comme etant le premier echantillon de chaque paquet), 

de maniere a obtenir des signatures numeriques ne comportant que des etat logiques "vrai" ou 
20 "faux" et ainsi a ameliorer la selectivite de la comparaison des signatures numeriques. 

Dans cette realisation, 

- si l'etat logique associe a une adresse du premier fichier est n vrai ,r ou "indetermine H , tandis 
que Tetat logique associe a une adresse du second fichier est n vrai M , le couple desdites 

25 adresses est retenu pour la recherche d f extrait commun, 

- si Tetat logique associe a une adresse du premier fichier est "faux" ou "indetermine", tandis 
que Tetat logique associe a une adresse du second fichier est "faux", le couple desdites 
adresses est retenu pour la recherche d ! extrait commun, 

tandis que les autres couples d f adresses sont exclus de la recherche. 



Bien entendu, le precede au sens de la presente invention est mis en oeuvre par des moyens 
informatiques tels qu'un produit programme d'ordinateur, decrit plus loin. A ce titre, 
1' invention vise aussi un tel produit programme d'ordinateur, ainsi qu'un dispositif, tel qu'une 



1er depot 



entite informatique, comportant un tel programme dans l'une de ses memoires. L'invention 
vise aussi un systeme d'entites informatiques de ce type, communicantes, comme on le vcrra 
plus loin. 

Ce programme d'ordinateur est capable notamment de generer une signature numerique d'un 
fichier de donnees binaires, cette signature numerique etant ensuite conlparee a une autre 
signature pour la recherche d'extrait commun. On comprendra que la signature numerique 
d'un fichier quelconque de donnees, elaboree par le precede au sens de l'invention, est un 
moyen essentiel pour mener l'etape de comparaison. A ce titre, la presente invention vile aussi 
la structure de donnees de cette signature numerique. 

D'autres caracteristiques et avantages de l'invention apparaitront a l'examen de la description 
detaillee ci-apres, et des dessins annexes sur lesquels : 

- la figure 1 resume sensiblement les principals etapes de recherche fine, 

- Ia figure 2A represente schematiquement l'agencement d'un tableau bidimensionnel pour 
la comparaison de deux fichiers de donnees, en fonction des adresses des donnees de ces 
deux fichiers, 

- la figure 2B represente schematiquement un tableau bidimensionnel pour la comparaison a 
l'identique de deux fichiers texte «Des moutons» et «Un mouton», 

- la figure 3 represente la correspondance entre les adresses de donnees et les adresses de 
blocs de donnees obtenus apres elaboration d'une signature numerique, ici pour un rapport 
d' index qui vaut 4, 

- la figure 4A represente un tableau bidimensionnel pour la comparaison des signatures 
numeriques de deux fichiers texte «Des moutons» et «Un mouton», avec un rapport 
d'index de 2, 

- la figure 4B represente un tableau bidimensionnel pour la comparaison a l'identique, fine 
et qui suit en principe l'etape de recherche grossiere de la figure 4A, des deux fichiers 
texte «Des moutons» et «Un mouton», 

- les figures 5A et 5B represented respectivement les tables de verite des fonctions « OU » 
et « ET » en logique binaire, 

• la figure 5C represente un tableau de codage des etats flous sur deux bits BO et B 1 , 
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- les figures 5D et 5E representent respectivement Tes tables de verite des fonctions « OU » 
et « ET » en logique floue (par application de la loi de codage d'etats flous de la figure 
5C), 

les figures 6A et 6B representent respectivement les valeurs des etats en logique binaire 
5 associees aux donnees d'un fichier en fraction des adresses de ces donnees dans le fichier 

et les valeurs des etats en logique floue associees globalement a ces donnees en fonction 
des memes adresses (la fonction « OU » en logique floue ayant ete appliquee ici dans 
chaque bloc de donnees entre les etats logiques associes a chaque donnee d'un bloc), 
les figures 7 A, 7B et 7C representent des tableaux de determination d'etats binaires et flous 
10 a partir d'exemple de fichiers texte. Pour ces exemples, les etats binaires sent determines a 

partir de la loi suivante : 

- 0 si la valeur entiere du code ASCII du caractere est strictement inferieure a 111, 

- 1 la valeur entiere du code ASCII du caractere est superieure ou egale a 1 1 1 ; 

- la figure 7A est un tableau representant les differents etats flous associes a un fichier texte 
1 5 «La tortue» pour differentes valeurs du rapport d' index, 

la figure 7B represente des tableaux dormant respectivement les signatures numeriques 
associees aux fichiers respectifs «Le lievre» et la «La tortue», pour un rapport d 5 index 
de 2, 

la figure 7C represente un tableau comparant les signatures numeriques de la figure 7B 

20 pour la recherche d'extraits communs, 

la figure 8A represente une fonction cosinusoi'de a differentes phases en fonction d'une 
variable t/T ou T est la periode de la fonction, 

la figure 8B represente la determination de Fetat de logique floue associe ponctuellement a 
une valeur de la variable t/T par application pour Pensemble des valeurs appartenant au 
segment [t/T,t/T+p] d'une combinaison logique entre les etats binaires obtenus a partir du 
signe de la fonction cosinusoide, 

la figure 8C represente les variations des etats de logique floue qui sont determines pour 
chaque valeur de la variable t/T par application pour Tensemble des valeurs appartenant au 
segment [t/T,t/T+p] d'une combinaison logique entre les etats binaires obtenus a partir du 
signe de la fonction cosinusoide, 

les figures 9A a 9C representent respectivement les probabilites de tirage de l'etat flou 
« 1 », de l'etat flou « 0 » et de l'etat flou « ? », en fonction de la frequence f associee a une 
cosinusoide et en fonction de la taille p des segments, 



25 



30 
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■ la figure 10 represente les variations de la fonction f(t/Te) qui est obtenue par interpolation 
des valeurs prises par les echantillons f n du fichier texte «Le Uevre» (la courbe en traits 
pointilles represente la contribution de 1'echantillon f« a la construction de la courbe 
f(t/Te)), 

la figure 1 1 represente les probabilites de tirage de l'etat flou « 1 » ( ou encore de l'etat flou 
« 0 »), en fonction de la frequence f avec un rapport d'index de 3, 

les figures 12A et 12B represented les probabilites de tirage de l'etat flou « 1 » (ou encore 
de l'etat flou « 0 »), en fonction de la frequence f, avec des rapports d'index respectifs de 
2 et de n (n>2), 

la figure 13 represente schematiquement les differentes etapes d'eehantillonnage et de 
filtrage raises en oeuvre pour obtenir une signature numerique Sn/k , 

la figure 14 represente les allures, en valenr absolue, de fonctions de filtrage Filtre(K,f) = 
Zmoy(K,f) (integrant la prise en compte d'une valeur moyenne de K echantillons autour 
d'un echantillon central), pour quelques valeurs de K, en fonction de f/Fe, 
la figure 15 represente les reponses frequentielles des filtres numeriques par defaut ajustes 
pour un rapport d'index k - 5, avec plusieurs valeurs du parametre interv decrit dans la 
description ci-apr6s, 

la figure 16A represente les adresses d' echantillons f n de donnees auxquelles a ete applique 
un echantillonnage, les adresses d'echantillons r n auxquels a ete applique un filtrage 
numerique et enfin les adresses de blocs de la signature numerique obtenue plr 
combinaison (« OU » en logique floue des echantillons r n filtres), 

la figure 16B represente les conditions de recouvrement des blocs de donnees associes an 
calcul des donnees de signatures numeriques par les donn6es d'un extrait EXT a rechercher 
dans un fichier de donnees, 

la figure 17 represente Ie nombre de comparaisons a effectuer en fonction du rapport 
d'index k, pour une recherche grossiere (Total I), pour une recherche fine ensuite (Total2), 
et pour l'ensemble des deux recherches (Totals), et, dans l'exemple dune recherche' 
d'extraits communs de taille minimale de 1000 caracteres entre deux fichiers de taille de 
lOOKoctets, 

la figure 18 represente un systeme d'entites informatiques communicantes pour la mise en 
reuvre d'une application avantageuse de l'invention, a la mise a jour de fichiers 
informatiques a distance, 
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la figure 19A represente une copie d'ecran d'une boite de dialogue dans le cadre d 3 une 
interface homme machine d'un programme informatique au sens de 1' invention, pour une 
recherche d'extraits communs entre deux fichiers textes, 

la figure 19B represente une copie d'ecran indiquant revolution de la recherche, 

la figure 19C represente une copie d'ecran pour une recherche d'extraits communs entre 

deux fichiers audio, 

la figure 19D represente une copie d'ecran pour la creation de fichier de signature 
numerique elabore a partir d'un traitement en temps reel de signaux audio. 

Le procede au sens de P invention consiste a comparer entre eux des fichiers informatiques afm 
d'y rechercher tous les extraits communs possibles. L'examen porte directement sur la 
representation binaire des donnees qui constituent les fichiers et, avantageusement, ne 
necessite done pas une connaissance prealable du format des fichiers. D'ailleurs, les fichiers a 
comparer peuvent etre de nature quelconque, comme par exemple des fichiers texte, des 
fichiers multimedia comportant des sons ou des images, des fichiers de donnees, ou autres. 
Chaque fichier est represente sous la forme d'un tableau a une dimension dans lequel les 
donnees binaires sont rangees avec le meme ordre que celui utilise pour un stockage sur 
disque. Les donnees binaires sont des octets (mots de 8 bits). Le tableau est done de meme 
taille que celle du fichier, en octets. Chaque case du tableau est reperee par une adresse. Selon 
les conventions utilisees en programmation, F adresse 0 pointe sur la premiere case du tableau, 
l 5 adresse 1 sur la case suivante, et ainsi de suite. 

On entend par « extrait », notamment dans la fomiule « extrait commnn », ce qui suit. II s'agit 
d'une sequence de donnees consecutives qui est obtenue par recopie des donnees binaires d'un 
fichier en partant d'une adresse de debut, determines Cette sequence est elle meme 
representee sous la forme d'un tableau de donnees binaires auquel on associe une adresse de 
debut qui permet de reperer Pextrait dans le fichier d'origine. On indique que les donnees 
binaires sont des octets (mots de 8 bits). Chaque donnee est representee par le nombre entier 
(compris entre 0 et 255) qui est obtenu par addition en base 2 des bits de 1' octet : 

B 0 + 2 1 B 1 + ... +2 7 B 7 

Le tableau a done bien la meme taille que celle de Textrait (en octets). Cette taille d'extrait 
peut etre comprise entre 1 et celle du fichier. 

Dans l'exemple d'un document stocke dans un fichier en format texte, un extrait pourra etre 
par exemple un mot, une phrase ou une page de texte. 



25 



30 
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Pour le precede au sens de Invention, on entend par « extrait commun a deivc fichiers » ce qui 
suit. II s'agit d'une sequence de donnees consecutives dont le contenu est fixe et qui peut etre 
obtenue soit par recopie des donnees binaires du premier fichier en partant d'une adresse de 
debut determinee, soit par recopie des donnees binaires du deuxieme Fichier en partant d'une 
autre adresse de debut determinee. En d'autres termes, si Ton preleve sur chaque fichier un 
extrait a partir des positions de debut reperees, la condition d'extrait commun sera atteinte si il 
y a identite parfaite des contenus portes par la premiere donnee binaire de chaque extrait, puis 
de ceux portes par la donnee binaire suivante, et ainsi de suite. Typiquement, dans le els de 
fichiers en format texte, chaque octet porte le code ASCII d'un caractere imprimable (alphabet 
latin, chiffre, ponctuation, et autres). L'identite parfaite des contenus de deux octets equivaut 
done a une identite parfaite des caracteres codes par ces octets. Tout extrait commun trouve est 
repere par un couple d'adresses de debut (une par fichier) et par une taille exprimee en nombre 
d 'octets. 

On decrit ci-apres un exemple d'extrait pris sur un fichier texte court. Le texte choisi est «Le 
lievre et la tortus Sa representation sous la forme de fichier en mode texte est representee a 
titre d'exemple sur le tableau ci-apres. La taille du fichier est de 22 octets. Les donnees 
binaires (octets) portent les codes ASCII qui sont associes a ehaque caractere du texte et sont 
affiehees en mode entier. 



Caractere du texte 


L 


e 




I 


i 


e 


V 


r 


e 




e 


Nombre entier du code ASCII 


76 


101 


32 


108 


105 


232 


118 


114 


101 


32 


101 


Adresse des donnees 


0 


1 


2 


3 


4 


5 


6 


7 


8 


9 


10 
















Caractere du texte 


t 




I 


a 




t 


o 


r 


t 


u 


e 


Nombre entier du code ASCfl 


116 


32 


108 


97 


32 


116 


111 


114 


116 


117 


101 


Adresse des donnees 


11 


12 


13 


14 


15 


16 


17 


18 


19 


20 


21 



L'extrait «lievre» se trouve dans le fichier. Sa representation sous la forme d'un tableau de 
donnees est sur le tableau suivant. II occupe 6 donnees binaires. Sa position de debut dans le 
fichier est 1'adresse 3. 



Caractere de l'extrait 


I 


i 


e 


V 


r 


e 


Nombre entier du code ASCII 


108 


105 


232 


118 


114 


101 


Adresse des donnees 


0 


1 


2 


3 


4 


5 
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On decrit maintenarit un exemple d'extraits communs a deux' fichiers texte courts. Les textes 
choisis sont «Le lievre» et «La tortae». Les representations sous la forme de fichiers en mode 
texte sont celles du tableau ci-apres. La taille de chaque fichier est de 9 octets. Les donnees 
binaires (octets) sont affichees en mode entier. 

5 



Caractere du 1 sr texte 


L 


e 




i 




e 


V 


r 


e 


Nombre entier du code ASCII 


76 


101 


32 


108 


105 


232 


118 


114 


101 


Adresse des donnees 


0 


1 


2 


3 


4 


5 


6 


7 


8 




Caractere du 2 eme texte 


L 


a 




t 


o 


r 


t 


u 


e 


Nombre entier du code ASCII 


76 


97 


32 


116 


111 


114 


116 


117 


101 


Adresse des donnees 


0 


1 


2 


3 


4 


5 


6 


7 


8 



II y a done cinq extraits communs aux fichiers. lis sont presentes par ordre croissant d'adresses 
de debut sur le premier fichier : 
10 «L»: position (0 5 0) et taille 1 

«e»: position (1, 8) et taille 1 

« »: position (2, 2) et taille 1 (caractere « espace ») 

«r»: position (7, 5) et taille 1 

«e»: position (8, 8) et taille 1 

15 On indique que les caracteres «L» et «/» sont distincts car les valeurs de leurs codes ASCII 
1 

sont differences. 

Afin d'eviter une profusion des resultats de recherche, on utilise commc critere de selection 
une valeur de la taille minimaie des extraits communs a trouver. On comprend facilement que 
la probability de trouver des extraits diminue quand la taille des extraits a rechercher 

20 augmente. En consequence, si Ton compare deux fichiers entre eux, le nombre d'extraits 
communs trouves diminuera quand on augmente la taille minimaie des extraits a trouver, 
Dans le meme but, on essaye par ailleurs d'eliminer les resultats de recherche qui se 
recouvrent entre eux. Ce traitement est conseille mais n'est pas indispensable. Sa mise en 
ceuvre complete necessite en effet de memoriser 1' ensemble des resultats de recherche afin de 

25 pouvoir en eliminer ceux qui sont reconverts par d'autres resultats de recherche. 

On decrit ci-apres un autre exemple d' extraits communs a deux fichiers texte courts. Les textes 
choisis sont «Un mouton» et «Des moutons». La taille minimaie des extraits communs 
recherches est de 6 octets. Les donnees binaires (octets) sont affichees en mode entier. 
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Les representations sous la forme de fichiers en mode texte sont sur le tableau ci-; 



apres. 



Caractere du 1 or texte 


U 


n 




m 


o 


u 


t 


o 


n 






Nombre entier du code ASCII 


85 


110 


32 


109 


111 


117 


116 


111 


110 






Adresse des donnees 


0 


1 


2 


3 


4 


5 


6 


7 


8 



















Caractere du 2 0ma texte 
Nombre entier du code ASCII 



Adresse des donnees 



68 



101 



115 



32 



m 



109 



111 



u 



117 
6 



t 

He 



o 

111 



8 



110 



115 



10 



On trouve un extrait common aux fichiers: « moutomy a la position (2, 3) et de faille 7, 
Comme indique ci~avant 3 le caractere « » (espace) est traite comme une donnee. Deux extraits 
communs de taille 6 sont elimines des resultats de recherche car ils sont reconverts par Fextrait 
« rnouton» de plus grande taille (7). II s'agit de : 

« mouto»: position (2, 3) et taille 6 

«mouton»: position (3 S 4) et taille 6 

Ces principes de base etant defmis, on decrit maintenant un algorithme de recherche dit 
«classique» etutilisant lesdits principes. Globalement ? la strategie de recherche mise en 
ceuvre est d'examiner tons les couples possibles de positions de debut que pent prendre un 
extrait commun sur les deux fichiers a comparer. On definit par le terxne «classigue» 
ralgorithme decrit ici. Toutefois, cette definition n'entend pas necessairement qu'il puisse se 
retrouver dans Petat de la technique. II faut simplement comprendre que Palgorithme au sens 
de la presente invention effectue des operations supplementaires, notamment ^elaboration de 
signatures numeriques, qui seront decrites plus loin. 

Pour chaque valeur de couple de positions de debut (une position de debut par fichier), une 
comparaison est effectuee entre les extraits qui peuvent etre preleves sur chaque fichier. Cette 
comparaison indique si la condition d'extrait commun est atteinte et determine la taille 
maximale de Pextrait commun trouve pour le couple de positions de debut considere. Le cas 
echeant, cette taille est enfin comparee a la valeur de la taille minimale des extraits communs a 
trouver. 

Pour tout couple de positions de debut sur les fichiers, une meme succession d'etapes est 
utilisee pour identifier l'existence d'un extrait commun. Les couples de positions de debut sont 
testes avec 1'ordre predefini suivant : 

- debut de l' analyse avec le couple de positions de debut (0,0), 
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ordre croissant des positions de "debut sur !e premier fichier, et ordre croissant des 
positions de debut sur Ie deuxieme fichier pour tous les couples ayant la meme position de 
debut sur le premier fichier., 

fin d'analyse pour le couple de positions (derniere donnee du premier fichier, derniere 
5 donnee du deuxieme fichier), 

le couple (n,m) repere finalement la position de debut n sur le premier fichier et la position 
de debut m sur le deuxieme fichier. 
Dans le cas ou la recherche a ete arretee pour afficher un extrait commun trouve a la position 
(n, m), la recherche d'autres extraits communs reprend a partir du couple de positions de debut 
10 suivant : 

(n 5 m+1) dans le cas general, ou 

(n+1, 0) dans le cas parti culier ou la position m+1 depasse la derniere donnee du 2eme 
fichier et ou la position n+1 ne depasse pas la derniere donnee du premier fichier. 
En se referant a la figure 1, on fixe ainsi un couple de position de debut d 3 extrait a tester sur les 

15 deux fichiers (etape 11). On compare ensuite les premieres donnees de chaque extrait (etape 
12). En cas d'identite, on poursuit la comparaison avec les donnees suivantes de chaque extrait 
(etape 13). Sinon (dans le cas ou aucun extrait commun n'est trouve), les comparaisons 
s'arretent (etape 14). On reitere les memes etapes pour les deuxiemes donnees de chaque 
extrait (etapes 15, 16 et 17), et ce, jusqu'aux niemes donnees (etapes 18, 19 et 20). Par 

20 exemple, la comparaison peut se terminer si la taille d 5 extrait est atteinte pour la valeur n 
(etape 21). 

On decrit ci-apres une representation bidimensionnelle utilisant un tableau represent^ en figure 
2A. 

L'axe vertical At porte les adresses des donnees du premier fichier. L'axe horizontal A2 porte 
25 les adresses des donnees du second fichier. Chaque case (m,n) du tableau represente un couple 
de position de debut a evaluer pour rechercher un extrait commun. 

Pour r exemple, la taille du premier fichier vaut 6 (adresses 0 a 5) et celle du second fichier 
vaut 10 (adresses 0 a 9). Les fleches F dans le tableau indiquent le sens de deplacement qui est 
utilise pour tester Tensemble des couples possibles de positions de debut d'extraits communs 
30 atrouver. 

L'exemple represente sur la figure 2B porte sur la recherche d 5 extraits communs de taille 
minimum 6 entre les textes «Un moaton» et « Des moutons ». L'axe vertical Al porte les 
adresses des donnees du premier fichier («Un mouton»), L'axe horizontal A2 porte les 
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adresses des donnees du second fichier («Des moutons»). Les cases grisees indiquent l'extrait 
commun trouve « mouton» de taille 7 (incluant l'espace precedant le mot), commencant par le 
couple de positions de debut (2,3). 

Comme les outils de programmation informatique imposent des contraintes sur la taille des 
tableaux de donnees pouvant Stre utilises dans des programmes, un programme informatique 
reprenant cet algorithme precede preferentiellement a une decoupe prealable des fichiers en 
blocs de donnees consecutifs de taille reduite (la decoupe tient compte des recouvrements 
necessaires entre blocs permettant de garantir le test de l'ensemble des couples de positions de 
debut d'extraits communs a rechercher). L'algorithme est ensuite applique sur l'ensemble des 
combinaisons possibles de couples de blocs de donnees. L'ordre de comparison des couples 
de blocs de donnees est analogue a celui decrit precedemment, a savoir par les couples de 
positions de debut d'extraits. Mais, simplement ici, la comparison porte sur des blocs de 
donnees plutot que de porter sur des donnees isolees. Typiquement, le premier bloc du premier 
fichier est compare au premier bloc du deuxieme fichier, puis aux blocs suivants du deuxieme 
fichier. Le bloc suivant du premier fichier est compare ensuite au premier bloc du deuxieme 
fichier, puis aux blocs suivants du deuxieme fichier, et ainsi de suite jusqu'a atteindre le 
dernier bloc de chaque fichier. 

En termes de performances, le temps d'execution du programme moteur de recherche en mode 
«plein texte» (e'est-a-dire par analyse de Pintegralite du contenu des fichiers) depend 
essentiellement du nombre de comparisons a effectuer entre donnees. Ce parametre est le plus 
important mais n'est pas le seul car il faut tenir compte aussi de la vitesse de transfert des 
donnees entre disque et memoire vive (RAM), puis entre memoire RAM et microprocesseur. 
Le nombre minimum de comparaisons a effectuer entre donnees pour accomplir la recherche 
d'un extrait commun de taille 1 est egal au produit : 

(taille du premier fichier) x (taille du second fichier) 
Pour la recherche d'extraits communs de taille minimum n, on optimise l'algorithme de 
recherche pour eliminer les positions de fin de fichier des couples possibles de positions de 
debut a analyser. Dans ce cas, le nombre minimum de comparaisons entre donnees a effectuer 
est ramene au produit : 

(taille du premier fichier - n + 1) x (taille du second fichier - n + I) 
Pour des fichiers de grande taille, la valeur de ce nombre reste proche de celle du produit des 
tailles des fichiers. 
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Le programme selon Talgorithme de recherche classique utilise cette valeur pour estimer la 
duree totale et la vitesse de recherche par interpolation du nombre de couples de positions de 
debut deja teste et du temps de recherche ecoule. 

On decrit maintenant Talgorithme de recherche d'extraits communs au sens de la presente 
5 invention, 

Globalement, on cherche a ameliorer les performances de recherche en reduisant le nombre 
d'operations de comparaisons a effectuer entre donnees par rapport a Talgorithme classique. 
La demarche retenue ici est d' effectuer les recherches en deux passes* Une recherche grossiere 
sur les fichiers qui elimine rapidement des portions de fichier qui ne comportent pas d'extraits 
10 communs. Une recherche fine sur les portions de fichier restantes en utilisant un algorithme 
voisin de Talgorithme classique decrit ci-avant Toutefois, comme on le verra plus loin dans 
certains cas de fichiers, la deuxieme passe n'est pas toujours necessaire et s 'utilise 
preferentiellement pour des fichiers de textes a comparer. 

Pour ia recherche grossiere, Talgorithme au sens de Tinvention met en oeuvre un calcul 
15 avantageux de signatures numeriques sur les fichiers a comparer. Les « signatures 
numeriques » peuvent etre assimilees a des fichiers ou a des tableaux de donnees dont la taille 
est inferieure a celle des fichiers desquels ces signatures sont issues. 

Les signatures numeriques ont la propriete de pouvoir etre utilisees comme index des fichiers 
qui leur sont associes. En outre, une relation mathematique permet de mettre en 

20 correspondance un extrait quelconque d'une signature numerique avec une portion precise du 

fichier qui lui est associe. De plus, la position de debut d'un extrait de signature numerique est 
en correspondance avec un nombre fixe de positions de debut d'extraits sur le fichier qui est 
associe a ia signature numerique. Inversement, a partir d'une certaine taille d'extrait, tout 
extrait de donnees pris sur un fichier peut etre associe a un extrait de la signature numerique. 

25 Les signatures numeriques ont aussi la propriete de pouvoir etre comparees entre elles pour 
identifier des extraits communs de signatures. 

On indique toutefois que la definition des extraits communs de signatures numeriques et les 
operations mathematiques utilisees pour effectuer les comparaisons de signatures numeriques 
sont differentes de celles qui ont ete decrites ci-avant pour la recherche d'extraits communs a 
30 des fichiers. Les proprietes d' index des signatures numeriques sont exploitees pour interpreter 
les resultats de recherche d'extraits communs de signatures. En effet, pour un couple de 
positions de debut determine (une par signature numerique), T absence d' extrait commun se 
traduit mathematiquement par une absence d' extrait commun entre deux portions de fichier 
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(une portion par fichier associe a chaque signature numerique). A 1' inverse, un extrait commim 
trouve entire deux signatures numeriques se tradnit par r existence possible d'un extrait 
commun entre deux portions de fichiers (une portion par fichier associe a chaque signature). 
La recherche des extraits communs entre fichiers n'est effectuee que sur les portions de fichier 

5 qui sont reperees par les resultats positifs de recherche d' extraits communs de signatures 
numeriques. Tout extrait commun de signatures numeriques est repere par un couple de 
positions de debut dans chaque signature, et chaque position de debut de signature est en 
correspondance avec une portion de fichier delimitee par a un nombre fixe entier (N) de 
positions de debut dans le fichier. Chaque extrait commun de signatures numeriques trouve se 

10 traduit done par une recherche d' extrait commun entre fichiers sur un jeu reduit de (N x N) 
couples de positions de debut a tester. A 1' inverse, chaque couple de positions de debut qui est 
caracterise par une absence d' extrait commun de signatures numeriques se traduit par une 
economie de recherche d'extrait commun entre fichiers sur un jeu de (N x N) couples de 
positions de debut a tester. 

15 Le calcul des signatures numeriques conditionne la valeur de taille minimale des extraits 
communs a trouver entre fichiers. Le nombre fixe (N) de positions de debut d' extrait sur le 
fichier en correspondance avec chaque donnee de signature numerique est un parametre 
ajustable du traitement de calcul des signatures numeriques. 

La valeur de la taille minimale des extraits communs de fichiers qui peuvent etre trouves avec 
20 Palgorithme de recherche grossiere est determinee a partir de ce nombre au moyen d'une 
formule mathematique que Ton decrira en detail ci-apres. Cette valeur augmente quant celle du 
nombre fixe N de positions augmente. Ci-apres, on designe ce nombre N par le terme 
« rapport d 'index ». 

On verra plus loin et en detail que I'algorithme de recherche d' extraits communs de signatures 
25 numeriques a quelques similitudes avec Palgorithme de recherche classique d' extraits 
communs a des fichiers. 

On indique simplement ici que la strategie de recherche mise en oeuvre est d' examiner tous les 
couples possibles de positions de debut que peut prendre un extrait commun sur les deux 
signatures numeriques a comparer. La taille minimale de 1' extrait commun de signatures 
30 numeriques a trouver est determinee au moyen d'une formule mathematique que Ton decrira 
plus loin, a partir de la valeur du rapport d'index et de la taille minimale des extraits communs 
de fichiers a trouver. 
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Pour chaque valeur de couple de positions de debut (une position de debut par signature 
numerique), une comparaison est effectuee entre les extraits qui peuyent etre preleves sur 
chaque signature numerique. 

Ainsi, globalement, Falgorithme au sens de I 5 invention enchaine les etapes de recherche 
5 suivantes : 

♦ Une recherche grossiere entre fichiers, avec calcul d'une signature numerique par fichier a 
comparer et une comparaison des signatures numeriques a la recherche d'extraits 
communs de signatures numeriques, et 

* Une recherche fine entre fichiers pour chaque extrait commun trouve de signatures 
10 numeriques, avec une mise en oeuvre de Falgorithme classique pour rechercher des extraits 

communs dans les portions de fichiers qui sont en correspondance avec les extraits 
communs de signatures numeriques. 

On decrit maintenant le principe de Falgorithme au sens de Finvention, de fa$on plus detaillee. 
15 En se referant a la figure 3, le fichier de donnees DATA est decoupe en blocs consecutifs BLO 
de donnees dont la taille est egale a celle du rapport d'index. Globalement, le calcul de 
signature numerique associe une donnee de signature a chaque bloc de donnees du fichier. 
Dans Fillustration de la figure 3, le rapport d'index vaut 4. 

20 On a represente sur les figures 4A et 4B des tableaux bidimensionnels d*une recherche 
d 5 extraits communs de taille minimale 6 entre les fichiers texte «Un mouton» et «Des 
moutons». Dans cet exemple, le rapport d'index vaut 2. La signature numerique du premier 
fichier comprend 5 donnees. La signature numerique du second fichier comprend 6 donnees, 
Les parties grisees de la figure 4A represented des extraits communs de signatures numeriques 

25 ECS entre les deux fichiers (par exemple la reference 41). Typiquement, en se referant a la 
figure 4B, cette reference 41 correspond a une zone de recherche reduite de 4 (2x2) couples de 
positions de debut d'extrait a tester sur les fichiers. Cette zone de recherche reduite est 
associee au couple (1,1) de positions de debut d'extrait commun de signatures numeriques. 

30 On decrit maintenant de fa<?on detaillee des operations de calcul et de comparaison des 
signatures numeriques. 

Le calcul des donnees de signatures numeriques utilise une theorie mathematique de logique 
floue. 
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Habituellement, la Iogique binaire utilise un bit de donnees pour coder 2 etats logiques. Le 

code 0 est associe a l'etat «fawc», tandis que le code 1 est associe a Petal «vnm>. 

La Iogique binaire dispose d'un jeu d'operations logiques de comparison entre etats binaires, 

comme represente sur les tables de verite des figures 5A et 5B. 

Une donnee de 8 bits (un octet) peut stocker 8 etats binaires independants. 

Comparativement a la Iogique binaire, la Iogique ffoue utilise deux etats supplements qui 

sont l'etat indetermine « ? » (a la fois vrai et a la fois faux) et l'etat interdit « X » (ni vrai et ni 

faux). 

Les 4 etats de Iogique floue sont codes sur 2 bits, comme represente sur la figure 5C, ou les 
references BO et Bl represented done un codage des etats sur 2 bits (axe horizontal)] tandis 
que l'axe vertical represente les differents etats de Iogique floue « 0 », « 1 », « ? » et « X ». 
Une donnee de 8 bits (un octet) peut stocker ainsi 4 etats flous independants. 
La Iogique floue dispose d'un jeu d'operations logiques de comparison entre etats flous tels 
que representes sur les figures 5D et 5E, respectivement pour le « OU » en Iogique floue et le 
« ET » en Iogique floue. Le resultat de ces operations est simplement obtenu en appliquant une 
comparison binaire OU ou ET a chaque bit de codage des composantes binaires des etats 
flous. 



On indique que, dans le contexte de 1'invention, le calcul de signatures numeriques utilise 
1'operation OU pour determiner un etat flou commun a un bloc de donnees consecutives du 
fichier associe a la signature. Au depart, un etat binaire (0 ou 1) est associe a chaque adresse de 
donnee, dans un bloc de donnees du fichier. La taille du bloc de donnees est egale au rapport 
d'index, comme indique ci-avant Les etats binaires sont ensuite compares entre eux pour 
determiner l'etat flou « 0 », « 1 » ou « ? » d'une donnee de la signature numerique. On associe 
ensuite une donnee de signature numerique au bloc de donnees du fichier. 
Ensuite, la comparison des signatures numeriques, proprement dite, utilise 1'operation ET 
pour determiner s'il y a ou non possibility d'avoir un extrait commun aux fichiers. Les 
decisions sont done prises en fonction de l'etat de Iogique floue qui est pris par le resultat de 
1'operation ET appliquee a des couples de donnees de signatures numeriques. 

L'etat interdit X signifie qu'il n'y a pas d'extrait commun entre les fichiers dans les zones de 
donnees qui sont associees au couple courant de positions de debut d'extrait commun de 
signatures numeriques (avec un bloc par donnee de signature numerique). On decrira ce cas en 
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detail plus loin. Les etats « 0 », « 1 » ou « ? » signifient inversemerit qu'il y a possibility 
d'extrait commun entre les fichiers dans les zones de donnees qui sont associees au couple 
courant de positions de debut d'extrait commun de signatures numeriques. 

5 En se referant aux figures 6A et 6B, les signatures numeriques sont calculees en deux etapes : 
Une etape de calcul d'une signature binaire en associant un etat binaire a chaque adresse 
de donnee du fichier. Les Iois de calcul utilisees permettent d'associer a rebours un ex trait 
de fichier de taille fixe a chaque etat binaire, et 

Une etape de calcul d'une signature floue par comparaison entre eux des etats de la 
10 signature binaire sur des blocs de taille egale a celui du rapport d'index. Chaque bloc de N 

etats binaires consecutifs determine un etat flou. 
Dans Pexemple des figures 6A et 6B, le rapport d'index N vaut 2. Sur la figure 6A, la 
reference Add identifie les adresses respectives des donnees du fichier FIC et la reference Valb 
identifie les etats binaires associes respectivement aux adresses de ces donnees. Sur la figure 
15 6B, la meme reference Valb identifie les etats binaires associes respectivement aux memes 
adresses des donnees et la reference Valf identifie les etats en logique floue associes aux 
donnees de la signature numerique SN tiree du fichier FIC. On compte un etat de logique floue 
par bloc de N adresses, ou N est le rapport d'index (ici N=2). La succession « ? » 3 « 0 », « ? », 
. . . des etats de logique floue Valb de la figure 6B s'interprete typiquement ainsi ; 

20 les etats binaires « 0 » et « 1 » des deux premieres adresses du fichier etant differents, 

P operation OU en logique floue appliquee a ces etats donne « ? » 5 

les etats binaires « 0 » et « 0 » des troisieme et quatrieme adresses du fichier etant egaux a 
« 0 », Toperation OU en logique floue appliquee a ces etats donne « 0 »> 
les etats binaires « 1 » et « 0 » des cinquieme et sixieme adresses du fichier etant 
differents, Poperation OU en logique floue appliquee a ces etats donne encore « ? », etc. 
On decrit ci-apres des exemples de calcul de signatures numeriques, avec un texte choisi «La 
tortuer*. Chaque caractere du texte est code sur un octet avec emploi du code ASCII. Chaque 
code ASCII est represente par la valeur du nombre entier qui est code par les 8 bits de Poctet 
Ce nombre est compris entre 0 et 255. Les etats binaires qui sont associes a chaque adresse de 
donnee sont determines, a titre d'exemple par unc loi du type : 

- etat 0 si la valeur entiere du code ASCII du caractere est strictement inferieure a 1 11, 
~ et etat 1 si la valeur entiere du code ASCII du caractere est superieure ou egale a 111. 
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Le tableau de la figure 7A montre les resultats qui sent obtenus pour le ealcul des etats flous de 
signature numerique avec differentes valeurs de rapport d'index, de 2 a 4, pour le fichier texte 
«La tor£ue». 

La figure 7B montre maintenant les resultats obtenus pour le calcul des etats flous de signature 
numerique avec une valeur de rapport d'index de 2, sur les deux fichiers textes «Le lievre* et 
«La tortue». L'adresse de la donnee est celle de la position de debut de l'extrait. La loi de 
determination des etats binaires est celle decrite ci-avant (valeur ASCII comparee a 1 1 1). 
Sur la figure 7C 5 on a represent un tableau bidimensionnel d'une recherche d'extraits 
communs entre les fichiers texte «Le lievre* et «La tortus, avec un rapport d'index de 2. La 
loi de determination des etats binaires qui sont associes a chaque adresse de donnees est 
identique a celle enoncee ci-avant (valeurs ASCII a comparer a 111). On a reference par les 
sigles AD1 et AD2 les adresses de blocs respectifs tires du fichier «Le lievre» et du fichier «La 
tortue* et par les sigles SN1 et SN2 les etats successifs en logique floue de ces blocs 
respectifs. Les cases non grisees indiquent les situations pour iesquelles il n'y a pas d'extrait 
commun de taille 1 entre les portions de fichier qui sont associees aux donnees de signatures 
numeriques. Les cases grisees indiquent au contraire les situations pour Iesquelles il peut y 
avoir un extrait commun de taille minimale 1 entre les portions de fichier qui sont associees 
aux donnees de signatures numeriques. 



On decrit ci-apres les lois mathematiques utilisees pour le calcul des signatures numeriques, 
dans une realisation preferee. La description qui suit complete la premiere etape de calcul 
precitee d'une signature binaire de l'algorithme de recherche au sens de 1'invention et decrit les 
lois mathematiques qui sont utilisees pour determiner les etats binaires qui sont associes a 
chaque adresse de donnee du fichier. Dans les exemples qui precedent, chaque etat binaire de 
signature numerique est determine par une loi simple qui repose sur la comparison de la 
valeur entiere du code de chaque octet du fichier avec une valeur entiere de reference. L'interet 
de cette loi est limite toutefois, car chaque donnee de signature binaire ne caracterise a la fois 
qu'une seule donnee de fichier. L' interpretation du resultat des comparisons entre donnees de 
signatures floues (qui sont obtenues a la seconde etape du calcul) se limite ainsi a 1 'existence 
possible d'extraits communs aux fichiers de taille 1. L'absence ou 1'existence possible d'un 
extrait commun aux fichiers de taille superieure a 1 ne peut etre detectee par une seule 
operation de comparaison entre donnees de signature floue. Pour remedier a cette situation, les 
lois mathematiques de determination des etats de la signature binaire sont choisies de maniere 
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a ce que chaque donnee de signature binaire caracterise un extrait de taille preferentiellement 
fixe du fichier. La taille des extraits de donnees est un parametre de la loi mathematique de 
determination des etats de la signature binaire. La valeur de ce parametre est toujours 
superieure ou egale a celle du rapport d'index. Grace a cette condition, le resultat d'une 
5 comparaison entre un couple de donnees de signatures floues peut s 3 interpreter soit par 
r absence soit par T existence possible d'un extrait commun de fichier de taille au moins egale 
au rapport d'index (N) parmi le jeu (NxN) de couples de positions de debut d 5 extrait commun 
de fichier qui est associe au couple de donnees de signatures floues. 

De meme, un extrait commun trouve de taille K entre signatures numeriques s'interprete par 

10 r existence possible d'un extrait commun de fichier de taille au moins egale a NxK parmi le 
jeu (NxN) de couples de positions de debut d'extrait commun de fichier qui est associe au 
couple de positions de debut de 1' extrait commun trouve de signatures numeriques. 
On comprendra aussi que la proportion d' etats flous «?» augmente quand la taille du rapport 
d'index augmente. En consequence, Fetape de recherche d'extraits communs entre signatures 

15 numeriques devient beaucoup moins selective lorsque le rapport d'index augmente. En effet, si 
les donnees d'une signature numerique sont toutes egales a 1'etat « ? », la comparaison de cette 
signature avec une autre signature numerique n'eliminera aucun couple de positions de debut 
d'extrait a rechercher sur les fichiers qui sont associes aux signatures. Pour remedier a cette 
situation, la loi de determination des etats binaires doit etre choisie de maniere a ce que Fetape 

20 de calcul des etats flous (par comparaison de blocs d' etats binaires) genere une faible 
proportion d'etats « ? » et inversement une proportion elevee d' etats «0» ou 
On decrit ci-apres un traitement pour ameliorer la selectivite des signatures numeriques, Les 
explications qui suivent utilisent des resultats de theories mathematiques des domaines de 
1'algebre des transformations et du traitement numerique de signaux. 

25 On rappelle que la transformation de Fourier est une transformation mathematique qui fait 
corresponds a une fonction f(t) de la variable t une autre fraction F(f) de la variable f selon la 
formule suivante : 

F (f) = J +C °f(t) e 2lnn dt 
-co 

Une propriete de la transformation de Fourier est la reciprocite, permettant d'obtenir a rebours 
30 la fonction f(t) a partir de F(f) par la formule suivante : 

f(t)= f +C °F(f)e 2i7tft df 

-00 
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Cette formule indique que toute fonction reelle f(t) peut se decomposer en une somme infinie 
de fonctions cosmusoi'des pures de frequence f s d'amplitude 2.\ F(f) | et de phase (p(f). 
r+co 

f(t) = J 2 | F(f) | cos^ft + 9(f)) df avec F(f) = | F(f) | e i7tcp(f) 

Les variations de la fonction cos^ft + <p) sont representees sur la figure 8A pour diverses 
valeurs de la phase <p. La fonction est periodique et sa periode T est egale a 1/f. Elle est 
positive sur des intervalles de taille T/2 et negative sur des intervals complementaires dc 
taille T/2. 

Cette demiere propriete va etre mise a profit pour le choix des lois de determination des 
signatures binaires. On associe a la fonction s(t) = co S (2*ft + ( p) une loi Etat s (t,p) de 
determination d' etats flous a deux variables. On note T = 1/f. 

La loi Etat s (t,p) est definie pour toute valeur reelle de t et pour toute valeur reelle positive du 
parametre p (a rapprocher du rapport d' index precite) : 

Etat s (t,p) = 1 si V x e [t, t+p], s(x) > 0 

Etat s (t,p) = 0 si V x e [t, t+p], s(x) < 0 

Etat s (t,p) = ? sinon 

Sur la figure 8B, on a represente une fonction cosinusoide ou p est voisin de 0,6.T. Pour tout 
intervalle [t,t+p], I a fonction s(t) prend a la fois des valeurs positives et negatives, de sorte que 
Etat s (t,p) = ? Ainsi, si le parametre p est plus grand que T/2, on aura « Etat s (t,p) = ? », pom- 
tout t. 

On a represente sur la figure 8C les etats flous de la loi Etat s (t,p) pour des valeurs fixes de p 
comprises maintenant entre 0 et T/2 (p=0,3T dans l'exemple represente). Les probabilites de 
tirage des etats flous sont obtenues en relevant sur un intervalle de taille egale a la periode T (T 
= 1/f) la taille cumulee des intervalles de la variable t qui produisent chaque etat flou possible 
(0, 1 ou ?), puis en divisant cette taille cumulee par T. 
Ci-apres, les notations suivantes sont utilisees : 

Probabilite de tirage de l'etat 1: Pl(lp) 

Probabilite de tirage de l'etat 0; PO(fp) 

Probabilite de tirage de l'etat ?: P?(f,p) 
On obtient les resultats suivants pour la loi Etat s (t,p): 

Pourp e [0,T/2] 

P 1 (f,p) = PO(fp) = (T/2 - p)/T = 1/2 - p/T = 1/2 - pf 
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P?(f,p) = 1 - Pl(f,p) - P0(f 5 p) = 2pf 
Pour p plus grand que T/2 

Pl(f jP ) = PO(f,p) = 0 
P?(f,p)«l 

On rappelle encore que les probabilites de tirage des etats flous ont ete obtenues apres 
application a la fonction s(t) = cos(27tft + cp) de la loi Etat s(t,p) de determination d'etats flous. 
On remarquera aussi que la probabilite de tirage des etats flous ne depend pas de la phase cp de 
la fonction s(t) = cos(2rcft + cp) . 

En se referant aux figures 9A, 9B et 9C, la representation graphique des variations des 
probabilites Pl(fjp) P0(f,p) et P?(f,p) en fonction de la frequence montre que la probabilite de 
tirage des etats 1 et 0 croit quand la frequence f diminue. Inversement, la probabilite de tirage 
de Petat « ? » croit quand la frequence f augmente. 

On va chercher maintenant a appliquer cette observation a la comparaison de donnees binaires 
au sens de P invention. 

L'echantillonnage d'une fonction f(t) de la variable t consiste a relever les valeurs qui sont 
prises par cette fonction a des instants T n qui sont espaces entre eux d'un intervalle fixe Te. 
Les notations suivantes sont utilisees : 

n numero d'echantillon (entier compris entre -co et +co) 

T n instant de Pechantillon n: T n = n.Te 

f H _V3,1 qxxx-. de - 1 - e chant il 1 on - n i f u = f (T lt ) 

Dans la theorie du traitement du signal, le theoreme de Shannon montre que P original d'une 
fonction f(t) peut etre obtenu a rebours a partir des echantillons f n si le spectre frequentiel de la 
transformee de Fourier F(f) associee a f(t) est strictement borne par P intervalle [-Fe/2,Fe/2] 5 
avec Fe = 1/Te. 

Dans cette condition, la fonction f(t) est obtenue apres application d'un filtrage passe-bas ideal 
dans la bande de frequence [-Fe/2, Fe/2] sur la transformee de Fourier du signal echantillonne 
F(f). 

Pour la suite, on considere que les fichiers de donnees presentent des echantillons f n d'une 
fonction f(t) qui satisfait aux conditions precedentes. En particulier, chaque adresse de donnee 
con*espond a un numero d'echantillon n. Chaque donnee stocke la valeur d'un echantillon 
(typiquement un entier code sur les bits d'un octet). 
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La transformee de Fourier du signal associe aux echantillons f n d'un fichier dc donnees est la 
suivante : 

H-co 

H*) = wee f{t) = f n pour t = T n etf{t)=0 pour t * T n {oil T„ = n.Te) 

—CO 

On notera que le choix de la periode d'echantillonnage Te est librc ici. 
La transformee de Fourier s'exprime aussi dans ce cas par la formule simplifiee suivante : 
n = N 

£(0 - 2 f n e " 2,TcfT n avec N + 1 = taille du fichier de donnees 
n = 0 

La transformee de Fourier F(f) de 1' original de la fonction f(t) qui est associee aux echantillons 
f n s'obtient par application du theoreme de Shannon : 

F(f) = F(f)/Fe pour f <= [ ~Fe/2, Fe/2 ] 

F(f) = 0 pour les autres valeurs de f 
La fonction f(t) qui est associee aux echantillons f„ est obtenue par application de la 
transformee inverse de Fourier. 

f (t) = | +C ° F(f ) e 2l7Tft df - (F(f) / Fe) e 2kft df 

-oo -Fe/2 

fFe/2 r l~ N -2iTc1T 2i7cft 

= J (S (f n /Fe)e T ' n ) e l7C "df 

-Fe/2 n = 0 

■ 2 (f n /Fe,re a *-" Te >d, . "£ I [^]" 
n = 0 ' -Fe/2 n = 0 2ircFe(t - nTe) -Fa* 

et s'exprime fmalement sous la forme d'une somme finie de termes en : 

f(x) = sin(x)/x, oux = TcFe(t - nTe), soit : 

f(t) = E f n sinfrFeft-nTe)) = £ W 
n = 0 7iFe(t - nTe) n = 0 

On a represente sur la figure 10 un exemple de representation de la fonction f(t) associee aux 
donnees du fichier texte «Le ltevre» > en fonction du rapport t/T. 

On indique que les relations precedentes entre une fonction f(t) et un jeu d 1 echantillons 
f n = f(nTe) s'appliquent pour toute fonction qui satisfait aux conditions de Shannon. 
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Elles s'appliquent done aussi pour la fraction s(t) = cos(27tft + cp) si Ton verifie la condition : 
f e [ -Fe/2, Fe/2 ] 

On pent alors represents s(t) par un jeu infini d'echantillons s n pris sur s(t) aux instants 
t n = nTe. 

5 On rappelle la loi Etat s (t,p) precedemment definie pour toute valeur reelle de t et pour toute 
valeur reelle positive de p: 

Etat s (t,p) = 1 si V x e [t, t+p], s(x) > 0 
Etat 3 (t,p) = 0 si V x e [t, t+p], s(x) < 0 
Etat s (t,p) = ? sinon 

10 Les proprietes de cette loi peuvent etre simplement transposees dans le domaine des 
echantillons s n si l'on s'interesse a la loi suivante de determination d'etat flous definie sur une 
sequence de k echantillons consecutifs {s„, s n+1 , s n+k .i}. 
Etat s (n,k) = 1 si V i e {0, k-1 }, s n+i > 0 
Etat s (n,k) = 0 si V i e {0, k-1 }, s n+i < 0 
15 Etat s (n,k) = ? sinon 

Les probabilites de tirage des etats flous associes a la loi Etat s (n,k) s'obtiennent simplement a 
partir de la loi Etat s (t,p) en rempla9ant p par (k-l)Te. 

On obtient ainsi la representation graphique des probabilites de tirage des etats 1 ou 0 de la. loi 
Etat s (n,k) en fonction de la frequence de la fonction s(t) associee aux echantillons s n . 
20 Erans-r'exempie-de-la-figure 1 iTTc est fixe a 3. La probabilite de tirage de 3 echantillons 
consecutifs de s(t) tels que s(nTe) ; s((n+l)Te), s((n+2)Te) soient superieurs a 0 est donnee 
par Pl(f,3), Iaquelle est nulle pour f superieure a l/2p avec p = (3-l)Te = 2/Fe, soit encore 
pour f > Fe/4. 

On va etendre la definition des lois de determination d'etats flous au cas d'une fonction 
25 quelconque f(t) qui satisfait aux conditions de Shannon. Dans ce cas general, la loi Etat f(t,p) 
est d6finie pour toute valeur reelle de t et pour toute valeur reelle positive de p: 
Etatf(t,p) = 1 si V x e [t, t+p], f(x) > 0 
Etat f(t,p) = 0 si V x e [t, t+p], f(x) < 0 
Etat f (t,p) = ? sinon 

50 Cette loi de determination d'etats flous est egalement transposee dans le domaine des 
echantillons f„ sur des sequences de k echantillons consecutifs {f n , f n+1 , f n+k .,}. 
Etat ( (n,k) = I si V i e {0, k-1}, f n+i > 0 
Etat f(n,k) = 0 si V i e {0, k-1 }, f n+i < 0 
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Etatf(n,k) = ?Sinon 

Contraircment au cas particulier deja traite ou f(t) est une sinusoi'de pure de frequence f, il n'y 
a pas de relation mathematique simple qui pemiette de calculer ici les probabilites de tirage des 
etats flous a partir de la transformee de Fourier F(f). 
5 On peut par contre s'inspirer des proprietes des probabilites de tirage des etats flous associes 
aux lois Etat s (n,k) et Etat s (t,p) pour deduire que 1' application d'un filtrage passe-bas sur une 
fonction quelconque f(t) se traduit par ['augmentation des probabilites de tirage des etats 0 et 1 
et par la diminution de la probability de tirage de Fetat ? qui sont associes aux lois Etat K'n,k) et 
Etat,(t,p). 

10 Dans le cas de la loi Etat t <n,k), on sait que si la fonction f(t) est une sinusoi'de pure de 
frequence f 5 on aura pour f > Fe/2(k-l) et k > 1 
Pl(f,k) = P0(f,k) = 0 
P?(f,k) = 1 

Si Ton applique un filtrage passe-bas ideal dans la bande de frequences [-Fe/2(k-l) 5 Fe/2(k-l)] 
15 a une fonction f(t), on comprend que les probabilites de tirage des etats 1 et 0 vont augmenter 
puisque chaque composante frequentielle Ru(f) du signal resultat rj<(t) contribue au resultat 
final avec une probability individuelle non nulle de tirage pour les etats 0 ou 1 . 
On peut demontrer c-ette assertion dans le cas d'une fonction de bruit aleatoire b(t) pour 
laquelle F amplitude du spectre B(f) est constante dans la bande de frequences [-Fe/2, Fe/2]. 
20 Dans le cas d*une fonction de bruit aleatoire b(t), on sait que les probabilites de tirage d'un 
echantillon sont : 

Pl b (k=l) = P0 b (k=l)= 1/2 
P? b (k=l) = 0 
Pour 2 echantillons consecutifs, on obtient: 
25 Pl b (k=2) » P0 b (k-2) - (1/2) 2 

P? b (k=2) - 1 -Pl b -P0 b -1-2 x(l/2) 2 
Et pour n echantillons consecutifs, on obtient: 
Pl b (k=n)-P0 b (k-n)-(l/2) n 
P? b (k-n) = 1 -Pl b -POb =1-2 ,(l/2) n 
30 Ainsi, pour un grand nombre d' echantillons successifs, les probabilites de tirage des etats « 0 » 
et « 1 » tendent vers 0 tandis que la probability de tirage de Fetat indetermine « ? » tend vers 1. 
On considere maintenant une fonction r n (t) qui est obtenue par application d'un filtrage passe- 
bas ideal a la fonction b(t) dans la bande de frequences [-Fe/2(n-l) 3 Fe/2(n-l)]. On a alors 
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observe que la representation des spectres de R»(f), de Pl<f,n), de P0(f,n) et de P?(f,n) s'obtient 
par simple homothetie des spectres de R 2 (f), de Pl(f,2), de P0(f,2) et de P?(f,2), comme le 
montrent les figures 12A et 12B. On a represent aussi sur la figure 12A 1'amplitude du spectre 
B(f) associe a la fonction b(t). On a represent aussi sur la figure 12B 1'amplitude du spectre 
R,,(f) associe a r„(t). 

On en deduit qu'il y a egalite entre les probability de tirage de n echantillons consecutifs du 
signal de bruit filtre r n (t) et celle de tirage de 2 echantillons consecutifs du signal de bruit non 
filtre b(t). Les probability de tirage d'un etat 1 ou d'un etat 0 pour n echantillons consecutifs 
du signal de bruit filtre r n (t) valent 1/4, tandis que la probabilite de tirage d'un etat « ? » pour n 
echantillons consecutifs du signal de bruit filtre r n (t) vaut 1/2. 

En conclusion, on ameliore la selectivity des signatures numeriques en appliquant un filtrage 
passe-bas a la fonction f(t) qui est associee aux echantillons f n = f(nTe). 

Les etapes de traitement et les relations entre donnees de fichiers, echantillons et fonctions 
peuvent etre resumees comme represent sur la figure 13. A l'etape 131, on recupere les 
donnees d n d'un fichier a traiter, lesquelles sont echantillonnees a l'etape 132 pour obtenir les 
echantillons f n qui sont des nombres entiers codes par les donnees d n . Selon le theoreme de 
Shannon (etape 132'), ees echantillons sont associes a une fonction f(t) de spectre F(f) borne 
et : 

F(f) = 0 pour f <£ [- Fe/2 , Fe/l] 
Eh apphquant ™ filtre V »ssr.-h™ Tetape 1 35"> a cette fonction F(f) , on obtient la fonction R(f) 



correspondant a la transformee de fourrier de la fonction r(t) (etape 133') dont les echantillons 
r n sont tels que r n = r(n.Te)=r(n/Fe) selon le theoreme de Shannon (etape 133). 
En pratique, on appliquera preferentiellement un filtre numerique passe-bas, a l'etape 135, 
directement aux echantillons f„ pour obtenir les echantillons r„ a l'etape 133. Ce filtre 
numerique sera decrit en detail plus loin. On applique enfin une loi de determination d' etats 
flous aux echantillons filtres r n pour obtenir les donnees de signature numerique 
Sn/k =Etat T (n,k), sur k echantillons consecutifs {r n , r n+I „ . t n+ ^}, n etant un multiple de k (etape 
134). 

Comme indique ci-avant, ces etapes de la figure 13 peuvent neanmoins etre simplifiees en 
effectuant directement le calcul des echantillons r„ a partir des echantillons f n , en utilisant un 
filtre numerique. 

Dans ce qui suit, on adopte les notations suivantes : 

Filtre(f) : transformee de Fourier de l'operateur de filtrage 
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filtre(t) : fonction associee a Filtre(f) par application dc transform^ inverse de Fourier 
Le theoreme de Borel donne la relation : 
R(f) = Filtre(f) x F(f) 

Cette relation se traduit sur les fonctions r(t), filtre(t) et f(t) par une foimule du type : 

/+co f+oo 
f(u) x filtre (t-u) du = J f(t-u) x filtre(u) du 

"°° -CO 

Si Fon considere ies fonctions qui sent associees aux echantillons (et qui respectent les 
conditions de Shannon), cette relation devient : 

k = +co k = +00 

r n = r(nTe) = £ f (nTe - kTe) x filtre(kTe) = £ f x filtre, 
k ~ ~°° k = -co 

Le filtrage numerique eonsiste done a definir un jeu de coefficients filtre k que Ton va utiliser 

pour calculer chaque echantillon r n par application de la formule ci-dessus. 

Dans la pratique, on essaye de s'approcher au mieux d'un gabarit predefini de filtre en limitant 

la taille du jeu de coefficients filtre k . Le compromis a trouver depend des facteurs suivants : 

- La precision du filtre realise s'ameliore quand le nombre de coefficients du filtre numerique 
augmente, 

- Inversement, la vitesse de calcul des echantillons r„ diminue quand le nombre de coefficients 
augments 

Si le nombre de coefficients vaut K, chaque calcul d'echantillon r n se traduit par K operations 
de multiplication et par (K-I) operations d'addition. 

Pour les filtres numeriques utilises par 1'algorithme de recherche au sens de l'invention, le 
critere principal retenu est la vitesse de calcul des echantillons r n . 

Dans une realisation preferee, le choix porte sur une famille particuliere de filtres dits a 
«valeur moyenne» pour lesquels les coefficients du filtre numerique sont identiques, de sorte 
que : 

filtre k = Cte pour k entier e [-K, K] 

filtre k = 0 pour les autres valeurs de k 

L'equation du filtre numerique se simplifie sous la forme suivante : 

k = +K 
r n = Cte x E f (n . k) 
k = -K 
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Pour ce filtre a 2K+1 coefficients, le calcul d 9 un echantillon r n ne se traduit plus alors que par 
2K+1 operations d 5 addition, et par une operation de multiplication si le terme Cte est different 
de la valeur L 

On remarque par ailleurs que l'echantillon r (n+i) peut s'obtenir simplement a partir de r n par la 

5 relation r^n = r n + Cte(f( n+ K+i) - f(n-K>) 

De fa9on particulierement avantageuse, en appliquant cette derniere relation, le calcul de 

chaque nouvel echantillon r (n+ i) ne se traduit plus que par deux operations d' addition. 

La reponse frequentielle du filtre numerique a valeur moyenne s'obtient a partir de la 

transformee de Fourier de Poperateur de sommation a(t) suivant : 
10 a(t) = 1 pour t e [-T/2, T/2] 

a(t) = 0 ailleurs 

Le filtrage de f(t) par Foperateur a(t) se traduit alors par la formule : 

r+oo fT/2 
r ( t ) = I f(t-u) x o(u) du = J f(t-u) du 

-oo -T/2 

La reponse frequentielle de Foperateur a(t) est 2(f) avec: 



15 



-oo 

-T/2 



On obtient finalement : 



2(f) = T sin(TlfT) 

TtfT 

La reponse frequentielle du filtre a valeur moyenne s'obtient en divisant ensuite celle de 
l'operateur sommation 1(f) par T. 

, __ sin (TtfT) 
Filtre(f) = Zmoy(f) = S(f) / T = K -— L 

TtfT 

La reponse frequentielle du filtre numerique a valeur moyenne sur K echantillons consecutifs 
s'obtient ensuite en remplacant T par (K-l)Te, soit : 

FiItre(K,f) = 2moy(K,f) = (K-1)Te sN*f(K-1)Te) 

7if (K-1 )Te 

Selon la parite de K, deux equations de filtre numerique sont utilisees pour le calcul des 
25 echantillons r„. 



20 
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k = +K/2 

Pour K impair on a: r n = (1/K)xJ f 

k = -K/2 
k = (K/2) -1 

Pour K pair on a: r n = (1/K) x Z f (n+k) 

k = -K/2 

On a represent* sur la figure 14 des exemples de trace de Filtre(K,f) = Emoy(K,f) pour 
quelques valeurs de K, en fonction de f/Fe. La premiere coupure du filtre a zero intervient pour 
f=Fe/(K-l). 

On sait par ailleurs que l'application d'un filtrage passe-bas ideal dans la bande de frequences 
[-Fe/2(n-l), Fe/2Cn-I)] se traduit par les probabilites de tirage suivantes pour des etats flous 
calcules sur des sequences de n echantillons consecutifs : 

PI = PO = 1/4 

P? = 1/2 

On peut se rapprocher d'un gabarit de filtrage passe-bas ideal en choisissant un filtre 
numerique a valeur moyenne dont la frequence de coupure a zero intervient a f = Fe/2(n-l) : 
cette condition est atteinte pour K = 2n-l 

Dans la pratique, l'application d'un filtre numerique a valeur moyenne se traduit bien stir par 
des probabilites de tirage des etats flous qui different de celles obtenues avec un filtre passe- 
bas ideal. La determination de la valeur de K est faite de maniere empirique en sachant que les 
probabilites obtenues avec K = 2n-l seront proches de celles du filtre ideal, et que les 
probabilites de tirage PI et PO augmentent aussi avec la valeur de K. 

On decrit ci-apres les adaptations apportees aux lois de determination d'etats flous, notamment 
en fonction db ce qui precede. 

Les calculs de probabilites sur le tirage des etats flous prennent pour hypothese que les 
donnees de fichiers represented les valeurs d'echantillons d'un signal f(t) de valeur moyenne 
nulle. Cette condition se traduit encore par la relation suivante : 



J+oo 
f(t) dt = 0 

-OO 
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Les resultats obtenus sur les probabilites de tirage des etats flous ne sont done valides que si 
cette condition est respectee pour les echantillons f n : 
n = +co 

E fn = 0 

n = -oo 

Dans le cas d'un fichier d 3 echantillons de taille N, cette condition devient : 
n = (N-1) 

5 

Or, les conditions precedentes de valeur moyenne nulle ne sont pas systematiquement 
satisfaites lorsque Von determine les valeurs des echantillons a partir des donnees binaires d'un 
fichier. Ces conditions ne sont par exemple pas satisfaites si Ton utilise la loi de codage 
« entier non signe » pour representer les valeurs des echantillons associes aux donnees d'un 

10 fichier. En effet, dans ce cas chaque octet represente un entier compris entre 0 et 255, ce qui 
conduit a une valeur moyenne <T echantillons de 127,5 pour un fichier de contenu aleatoire. 
Pour palier ce problems on introduit comme suit un parametre de valeur de reference Vref 
dans la loi de determination d 5 etats flous sur les sequences de k echantillons consecutifs r n {r n , 
r n -ri 5 . • «, r n+ k-i} qui ont ete obtenus par filtrage numerique a partir des echantillons f n : 

15 Etat r (n,k) - 1 si V i e {0, k~l}, r n+i >= Vref 

Etat r (n,k) » 0 si V i e {0 5 k-1}, r n+i < Vref 
Etat T (n 3 k) = V Smon 

Le choix de la valeur Vref est alors fait pour s'approcher au mieux de la valeur moyenne prise 
par les echantillons f„ du fichier de donnees. 

20 Dans le cas ou 1'application de recherche est ciblee sur la comparaison de fichiers de meme 
nature, comme par exemple des fichiers texte, la valeur de Vref doit etre fixee en connaissance 
de la loi de codage des donnees du fichier et des probabilites de tirage de chaque code. 
Pour la realisation du programme informatique de recherche plein texte, dans une realisation 
preferee, on considere que le format des fichiers a comparer ne serait pas connu a l'avance. On 

25 determine done la valeur dc Vref en procedant a une analyse prealable des fichiers a comparer. 

Pour cette realisation, la valeur de Vref est calculee pour chaque echantillons r n en effectuant 
un calcul de valeur moyenne des echantillons f k sur une sequence de taille fixe, Kref, centree 
sur f a s avec : 
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k = +Kref/2 
Vref n = (1/Kref) x £ f 

k = -Kref/2 

Sachant que les dchantillons r n sent deja obtenus par un calcul de valeur moyenne sur des 
sequences de K echantillons consecutifs f kj la taille de la sequence Kref (utilisee pour le calcul 
de Vref n ) est choisie superieure a celle de K (utilisee pour le calcul des echantillons r„ ). 
La loi de determination des etats flous sur les sequences de k echantillons consecutifs r„ (r n , 
r„+i, r n .,. k _i} devient alors : 

Etat r (n,k) = 1 si V i e {0, k-1}, r n+i >= Vref, 1+i 

Etat r (n,k) = 0 si V i e {0, k-1}, r n+i < Vref n+i 

Etat r (n,k) = ? Sinon 
Cette loi se simplifie en posant r' n = (r„ - Vref n ). Alors : 

Etat r (n,k) = 1 si V i e {0, k-1}, r' n+i >= 0 

Etat r (n,k) = 0 si V i e {0, k-1 }, r' n+i < 0 

Etat r (n,k) = ? Sinon 
Pour K pair et Kref pair, la formule du filtre numerique est : 

k = (K/2) -1 k = (Kref/2) -1 

r ' n = (1/K l E *> k > " (1/Kref) 2 W) 

k = -K/2 k = -Kref/2 

On retiendra que la reponse frequentielle du filtre numerique associe au calcul des echantillons 
r'„ s'obtient simplement a partir de celle de Smoy(K,f) : 

Filtre(f) = £moy(K,f) - Smoy(Kref,f) 
Le choix de la valeur de K est fait de maniere a ce que la frequence de coupure a zero du filtre 
soit inferieure ou egale a celle qu'il faudrait utiliser pour un filtre passe-bas ideal qui permette 
d'obtenir des probabilites de tirage d'etats 1 ou 0 egales a 1/4. On rappelle que cette frequence 
de coupure de filtre passe-bas ideal s'obtient en fonction du rapport d'index k par la formule 
Fe/(2.(k-l)) et que cette condition est atteinte sur Smoy(K,f) pour K plus petit ou egal a 2k -1 . 
Le choix de Kref est fait de maniere a etre superieur a K, sans etre non plus trop eleve. 
Pour la realisation preferentielle du programme informatique de recherche plein texte, on 
ajuste automatiquement les valeurs a utiliser pour K et Kref en fonction de la valeur k voulue 
pour le rapport d'index. Les valeurs de K et de Kref sont choisies en tant que multiple de k, ce 
qui facilite les calculs d'adresse des donnees, done : 

K = interv x k et Kref = intervref x k 
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La reponse du filtre numerique ajuste pour un rapport d'index k est 

Filtre(k,f) = Emoy(interv x k,f) - £moy(intervref x k,f) 
Pour la realisation du programme informatique de recherche plein texte, quatre lois de 
determination d'etats flous sont simultanement utilisees, dans une realisation partieuliere. 
5 Les etats flous determines par la premiere loi sont codes sur les 2 bits de poids faible de 
chaque donnee de signature numerique, Les etats flous determines par la deuxieme loi sont 
codes sur les 2 bits de poids faible suivants de chaque donnee de signature numerique, et ainsi 
de suite,, jusqu'a occupation complete des 8 bits (soit done 1 octet) de chaque donnee de 
signature numerique. 

10 Les quatre lois sont caracterisees par un jeu de parametres intervl, interv2, interv3, interv4 et 
intervref Le meme parametre intervref est utilise pour chaque loi. Pour un rapport d'index k 3 
le choix par defaut s'est porte sur le jeu suivant de filtres numeriques associes a chaque loi de 
determination d 5 etats flous : 

Filtre l(k,f) = Smoy(2k 5 f) - Smoy(14k,f) 
15 Filtre2(k,f) « Smoy^f) - Emoy(14k,f) 
Filtre3(k,f) = Zrnoy(5k ? f) - Zmoy(14k 5 f) 
Filtre4(k,f) = Smoy(7k 5 f) - Emoy(14k,f) 
La figure 1 5 iliustre la reponse frequentielle des filtres numeriques par defaut ajustes pour un 
rapport d'index k = 5. Les formules des filtres numeriques par defaut ajustes pour un rapport 
-20 diindex-k-sont-: 

k=(2k/2)-1 k = 7k-1 

r1 n =(1/2k)S W) ^ ( 1/14k ) 2 W, 
k = -2k/2 k = -7k 

k=(3k/2)-1 k = 7k-1 

r2 n = (i/3k)X f (n+k) - (1/14k) S W) 
k = -3k/2 k = -7k 

k = (5k/2)-1 k = 7k-1 

r3 n = (1/5k)E W) " ( 1/14k ) 2 W) 
k = ~5k/2 k = -7k 

k=(7k/2)-1 k = 7k-1 

r4n = (l/7k)E W) " d/14k) S W) 
k = -7k/2 k = -7k 



25 



Pour eviter les bruits de calcul occasionnes par les divisions, dans une realisation avantageuse, 
on calcule d'abord les sommes, puis on effectue ensuite les tests de signe sur ternies r n en 
multipliant la premiere somme par Kref et la deuxieme somme par K. 
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On decrit raaintenant une optimisation complete pour 1'application a un moteur de recherche 
plein texte. 

Cette optimisation commence par la determination d'un rapport d'index approprie. 
Pour etre independant des choix particuliers qui pourraient §tre retenus pour la realisation des 
filtres numeriques passe-bas (figure 13), on utilise 1 'equation generate suivante pour le fdtre 
numerique : 

i = +!2 
r n =E filtre, x f (n+i) 
i = -H 

Comme indique relativement a la figure 13, chaque donnee de signature numerique s n/k est 
determinee a partir d'un groupe de k echantillons consecutifs {r„, r n+1 , r n+2 , r n+k .,}, k 
designant la valeur du rapport d'index et n etant choisi multiple de k. Cette determination peut 
etre decomposee en deux etapes : 

- la determination d'un etat binaire eb„ associe a chaque echantillons r n , avec : 

eb„ = 0 si r n < 0, et eb„ = 1 sinon 

- la determination d'un etat flou Sn/k par un OU logique sur le groupe d'etats binaires 
consecutifs {eb„, eb n . H , eb n+2 , eb n+k .,}: 

s,^k — (eb„ ou eb„+iOu eb n+2 ou . . . ou eb n+k -i) 
On a illustre sur la figure 16A les relations entre adresses de donnees de fichier et adresses de 
donnees de signatures numeriques. On observe que dans le cas d'un choix de rapport d'index 
k, chaque donnee de signature numerique d'adresse (n/k) est determinee a partir d'un groupe 
de (II + k + 12) donnees de fichier: { f n .„, ..... f n+I2+k .,}. On notera aussi que dans le cas ou les 
adresses utilisees pour le calcul des echantillons r n debordent de la plage des donnees du 
fichier a indexer, les etats eb n associes sont initialises a l'etat flou « ? ». Sur la figure 16 A, les 
echantillons f n sont tires des donnees du fichier. On leur applique ensuite le filtrage numerique 
pour obtenir les echantillons filtres r n en correspondance des etats eb n associes. Les etats flous 
s^k correspondant aux donnees de signature numerique sont ensuite determines par la 
comparaison mettant en jeu le OU logique : 

s n/k = (eb n ou eb„+|OU eb n+2 ou . . . ou eb n+k .,) 
en respectant avantageusement les memes adresses de depart des echantillons f„. 
Pour 1'application au moteur de recherche plein texte, la valeur k du rapport d'index 
conditionne la valeur de taille minimale d'extraits communs a deux fichiers qui peuvent etre 
detectes en procedant par une recherche d'extraits communs de signatures numeriques. Cette 
taille minimale d'extrait commun de fichier est obtenue lorsque la taille de l'extrait commun 
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aux signatures numeriques est egale a 1. Dans ce cas, la condition de detection de 1' ex trait 
commun de fichier impose que le groupe des donnees consecutives de Pextrait a trouver 
recouvre le groupe des donnees consecutives utilisees pour le calcul de chaque donnee de 
signature numerique. 

5 En prenant les notations text pour la taille d'extrait commun de fichier a trouver et t S j gn pour la 
taille du groupe de donnees utilisees pour le calcul d'une donnee d'index, on demontre la 
relation t cxt > t sign + (k -1). 

On a represente sur la figure 16B les conditions de recouvrement des donnees associees au 
calcul d'une donnee de signature numerique par celles d'un extrait de fichier. Sur la figure 

10 16B, la reference EXT designe un extrait de donnees qui satisfait la condition de recouvrement 
du groupe de donnees utilise pour determiner la donnee de signature numerique d'adresse 
(n/k). La reference Gl designe le groupe de donnees utilise pour determiner la donnee de 
signature numerique d'adresse (n/k). La reference G2 designe le groupe de donnees utilise 
pour determiner les donnees de signature numerique d'adresses respectives (n/k)-l et (n/k). La 

15 reference ADSN designe les adresses des donnees de signature numerique. On rappelle que 
l'entier n est un multiple du rapport d'index k. 

On observe que les conditions de recouvrement dependent de la phase de Padresse de debut de 
Pextrait de donnees qui sera recherche. Dans le cas le plus favorable, Padresse de debut de 
Pextrait coincide avec Padresse de la premiere donnee d'un groupe de donnees utilise pour le 

20 calcul d'une donnee de signature numerique. Dans ce cas, Padresse de debut de Pextrait est 
n-Il (avec n multiple de k) et la taille minimale de Pextrait pour recouvrement est II + 12 + k. 
Dans le cas le moins favorable, Padresse de debut de Pextrait coincide avec Padresse +1 de la 
premiere donnee d'un groupe de donnees utilise pour le calcul d'une donnee de signature 
numerique. Dans ce cas, Padresse de debut de Pextrait est n-Il-(k-l) (avec n multiple de k) et 

25 la taille minimale de Pextrait pour recouvrement vaut II + 12 + k + (k-1). 

Dans tous les cas, la condition de recouvrement d'un groupe de donnees utilise pour le calcul 
d'une seule donnee de signature numerique est satisfaite si la taille de Pextrait a trouver est 
superieure ou egale a (II + 12 + 2k -1). Reciproquement, si la taille d'extrait a trouver est egale 
a (II + 12 + 2k -1), Pextrait recouvre bien un groupe de donnees utilise pour le calcul d'une 

30 donnee unique de signature numerique. 

On peut etendre le raisonnement au cas du recouvrement d'un groupe de donnees utilise pour 
le calcul d'un extrait de donnees de signatures numeriques de taille TES. Dans le cas le plus 
favorable, Padresse de debut de Pextrait coincide avec Padresse de la premiere donnee d'un 
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groupe de donnees utilise pour le calcul de TES donnees consecutives de signature numerique 
St Fadresse de debut de I'extrait vaut n - II (avec n multiple de k), la taille minimale de 
1' extrait pour recouvrement vaut 11+12 + k.TES. 

Dans Ie cas le moms favorable ou 1'adresse de debut de 1'extrait coincide avec 1'adresse +1 de 
la premiere donnee d'un groupe de donnees utilise pour le calcul de TES donnees de signature 
numerique, 1'adresse de debut de 1'extrait vaut n - II - (k-1) (avec n multiple de k) et la taille 
minimale de 1'extrait pour recouvrement = II + 12 + k.TES + (k-1) 

Dans tous les cas, la condition de recouvrement d'un groupe de donnees utilise pour le calcul 
de TES donnees consecutives de signature numerique est satisfaite si la taille de 1'extrait a 
trouver est superieure ou egale a (II + 12 + k(TES+l) -1). 

A partir des formules precedentes, on applique un raisonnement inverse pour determiner les 
valeurs de rapport d'index k qui peuvent etre utilisees pour rechercher un extrait commun de 
fichiers de taille TEF. On doit satisfaire aux relations suivantes : 
TEF > Il + I2 + k(TES + l)-l ,et 

TES > 1 (qui est simplement la taille minimum d'extrait commun de signatures numeriques) 
La valeur minimale pour k est kmin - 2, sinon il n'y a bien sur aucune amelioration a attendre 
sur la vitesse de recherche. 

On en deduit enfm la valeur de taille minimale utilisable pour TEF 

TEF mini = II + 12 + 2(TES + I) -1 
On notera que pour TES = 1, TEF mini = 11+12 + 3 
La valeur maximale pour k s'obtient a rebours en prenant TES = 1 , alors : 

kmax = partie entiere de [(TEF - II - 12 + 1) / 2] 
Pour toute valeur de k comprise entre kmin et kmax, on deduit la taille de 1'extrait commun de 
signature TES qui conditionnera la detection d'un extrait commun possible aux fichiers de 
taille TEF : 

TES < partie entiere de [(TEF - II - 12 + 1) / k] -1 
Les formules peuvent etre adaptees au cas particulier des filtres numeriques «par defaut » 
ajustes pour un rapport d'index k, comme on 1'a vu precedemment. II suffit alors de remplacer 
II par (intervref x k)/2 et 12 par II -1. On obtient la relation suivante entre TEF, TES, k et 
intervref : 

TEF >k(intervref+ TES + 1) - 2 
La valeur de taille minimale utilisable pour TEF est obtenue pour k = 2 et TES = 1 et I'on 
deduit TEF mini = 2. intervref + 2 
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Pour TEF fixe, on deduit la plage de valeurs licites pour le rapport d' index k: 

kmin = 2 < k < kmax = partie entiere[(TEF + 2) / (intervref + 2)] 
Pour toute valeur de k comprise entre kmin et kmax, on deduit la taille de l'extrait commun de 
signature TES qui conditionnera la detection d'un extrait commun possible aux fichiers de 

5 taille TEF : 

TES < partie entiere de [(TEF + 2) / k] - (intervref + 1) 

Ainsi, la detection d'un extrait commun de fichiers de taille TEF peut etre obtenue par 

comparaison de signatures numeriques en utilisant differentes valeurs de rapport d' index k. 

Pour une valeur determinee TEF, on deduit une plage de valeurs utilisables pour k : de kmin a 
10 kmax. Pour chaque valeur utilisable de k, on determine ensuite une valeur TES de taille 

maximale d' extrait commun de signatures numeriques qui garantisse la detection d'un extrait 

commun de fichiers de taille TEF, 

On va maintenant examiner comment choisir la valeur de k (dans la plage licite kmin, kmax) 
pour avoir la vitesse de recherche la plus rapide. 
15 Comme indique precedemment, pour replication a un moteur de recherche plein texte, la 
recherche se fait en deux passes : 

- la recherche d'extraits communs de signatures numeriques de taille superieure ou egale a 
TES, et 

- pour chaque extrait commun de signatures numeriques trouve, la recherche ciblee 
2$ d'extraits communs de fichiers de taille TEF parmi le jeu de couples de positions de debut 

d'extraits de fichiers en relation avec le couple de positions de debut de l'extrait commun 
de signatures numeriques. 
Pour revaluation du nombre d'operations de comparaison a effectuer pour les deux passes de 
recherche, on retient dans une premiere approche les hypotheses simplificatrices suivantes : 
25 - les probabilites de tirage des donnees de fichiers sont independantes ; 

- par ailleurs, les probabilites de tirage des donnees de signatures numeriques sont 
independantes. 

La probabilite de tirage d'un extrait commun de fichiers de taille 1 est notee PF. La probabilite 
de tirage d'un extrait commun de fichiers de taille 2 est notee PF2. Enfin, la probabilite de 
30 tirage d'un extrait commun de fichiers de taille TEF est PFTEF. 

Ensuite, la probabilite de tirage d'un extrait commun de signatures numeriques de taille 1 est 
notee PS. La probabilite de tirage d'un extrait commun de signatures mimeriques de taille 2 est 
PS2. La probabilite de tirage d'un extrait de taille TES est PSTES. 
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On adopte par ailleurs les notations suivantes : 

TF1 : Taille du premier fichier a comparer 
TF2: Taille du second fichier a comparer avec Ie premier fichier 
TS1: Taille de la signature numeriquc associee au premier fichier 
TS2: Taille de la signature numerique associee au second fichier 
On evalue d'abord le nombre Total 1 de comparisons a effectuer pour la premiere etape de 
recherche «grossiire» d'extraits communs de signatures numeriques de taille superieure ou 
egale a TES. Le nombre de couples possibles de positions de debut d'extrait commun de 
signatures numeriques est egal a TS1 x TS2. Pour une valeur de rapport d'index k, les tailles 
TS1 et TS2 se deduisent des tailles TF1 et TF2 par les relations : 

TS 1 = TF1 / k et TS2 = TF2 / k 
Pour chaque couple possible de positions de debut d'extrait commun de signatures 
numeriques, on compare des premieres donnees d'extrait. En cas de correlation, la 
comparaison se poursuit avec les deuxiemes donnees d'extrait, et ainsi de suite jusqu'a 
atteindre la taille d'extrait demandee TES. 

Pour chaque test, le nombre moyen d'operations de comparaison s'obtient a partir de la 

probability de tirage PS, avec : 

Pour le test des premieres donnees d'extrait : 1 operation, 
Pour le test des deuxiemes donnees d'extrait : PS operations, 
Pour le test des TESiemes donnees d'extrait: PS TES -' operations. 

Au total, on obtient done 1 + PS + .... + PS TES -' , soit (I - PS TES ) / (1 - PS) operations. La 

valeur de Total 1 s'en deduit par multiplication par (TS1 x TS2), soit : 

Totall = (TF1 x TF2) x (1 - PS TES ) / (k 2 x (1 - PS)) 

On evalue maintenant le nombre Total2 de comparisons a effectuer pour la seconde etape de 
recherche « ciblee » d'extraits communs de fichiers de taille TEF parmi le jeu de couples de 
positions de debut d'extraits de fichiers en relation avec les extraits communs de signatures 
numeriques trouves a la precedente etape de recherche grossiere. Pour un extrait commun de 
signatures numeriques repere par un couple d'adresses de debut (nl, n2), les adresses de debut 
a tester sur le premier fichier sont comprises entre (k.nl +I2+k.TES - TEF) et (k.nl - II), soit 
au total, Na = (TEF - II - 12 - k.TES + 1) adresses possibles (figures 16A et 16B). 
La valeur de TEF peut etre par ailleurs encadree par la relation suivante quand on utilise la 
plus grande valeur possible pour k : 

Il + I2 + k(TES+l)- 1 < TEF<Il + I2 + k(TES + 2)-l 
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On en deduit que k <Na < 2k. 

Le meme raisonnement s'applique aux adresses de debut a tester sur le deuxieme fichier en 
substituant n2 a nL 

II y a done au total Na 2 couples de positions de debut d'extraits communs de fichiers a evaluer. 
5 Le nombre moyen de comparaisons a effectuer pour rechercher un extrait commun de fichiers 
de tattle TEF s'obtient a partir de la probabilite de tirage PS mais en appliquant un 
raisonnement analogue a celui de Fetape de recherche grossiere : 

Na 2 x(l -PF TCF )/(1 -PF) 
Le nombre moyen d'extraits communs de signatures numeriques trouves a la premiere etape 
10 s'obtient a partir de la probabilite de tirage PS et des tattles des signatures TS 1 et TS2 : 
TS1 xTS2xPS TES 

On remplace TS1 par TFl/k etTS2 par TF2/k et on obtient finalement Total2 par produit des 
dernieres expressions: 

Total2 = (TF1 x TF2) x (Na 2 /k 2 ) x PS TES x (1 - PF TEF ) / (1 - PF) 
15 On a deja montre que 1 < Na/k < 2. On en deduit les relations suivantes: 

Total2 > (TF1 x TF2) x PS TBS x (1 - PF TEF ) / (1 - PF) et 

Total2 < 4x(TFl x TF2) x PS TES x (1 - PF TEF ) / (1 - PF) 
On indique que le signe « x » signifie ici « maltiplie par », 

Enfm, revaluation du nombre Total3 d 5 operations de comparaison a effectuer pour les deux 

20 passes de recherche s'obtient par simple addition de Total 1 et de Total2, soit : 

Total3 = (TF1 x TF2) x (I - PS TES ) / (k 2 x (1 - PS)) 

+ (TF1 x TF2) x (Na/k) 2 x PS TES x (1 - PF TEF ) / (1 - PF) 
Pour les grandes valeurs de TEF et TES, la relation peut etre approchee par : 

TotaB = (TF1 x TF2) x [ (1 / (k 2 x (1 - PS))) + ((Na/k) 2 x PS TES / (1 - PF)) ] 
25 Le nombre total de comparaisons a effectuer avec Falgorithme de recherche de reference est 
proche de TF1 xTF2. Le rapport entre ce dernier nombre et Total3 donne une estimation du 
gain de vitesse de recherche obtenu par utilisation de Falgorithme au sens de F invention ; 

Gain = 1/ [ (1 / (k 2 x (1 - PS))) + ((Na/k) 2 x PS TES / (1 - PF)) ] 
Quand le second terme de la somme est inferieur au terme en l/k 2 > on notera que Fon obtient 
30 un gain superieur a k 2 /2(l - PS). 

On indique incidemment que, toutefois, pour obtenir le gain effectif de vitesse de recherche, il 
faut aussi deduire les temps propres au calcul des signatures numeriques. 
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Comme on le vetxa en reference a la figure 17, I'etude des variations de la fonction TotaI3 en 
fonction du rapport d' index k montre que : 

- le premier terme de la somme en 1/k 2 decroit tres rapidement quand k augmente, 

- le deuxieme terme de la somme en PS TES « croit quand k augmente, car la valeur de 
TES(k) decroit quand k augmente. 

On rappelle que dans le cas general, TES = partie entiere de [(TEF - II - 12 + 1) / k] -1 
Dans le cas des filtres numeriques a valeur moyenne optimises, 

TES = partie entiere de [(TEF + 2) / k] - (intervref+ 1) 
II apparait que la valeur de k a utiliser pour obtenir la valeur minimum de cette fonction ne 
peut pas Stre determinee par une relation mathematique simple. Toutefois, comme le jeu des 
valeurs possibles de k est reduit, on determine la valeur optimale de k de maniere empirique. 
Pour chaque valeur possible de k (entre kmin et kmax), on calcule la valeur de TotaB en 
fonction de k et l'on retient la valeur de k qui produit la plus petite valeur de TotaB. 
Toutefois, 1'evaluation du nombre d'operations de comparaison a effectuer est plus precise si 
l'on corrige aussi le modele utilise pour le calcul des probabilites de tirage d'extraits communs 
de signatures numeriques. En effet, les probabilites de tirage des donnees de signatures 
numeriques ne sont pas independantes entre elles, car il y a un recouvrement important entre la 
plage des donn6es de fichier qui sont utilisees pour le calcul d'une donn6e de signature 
numerique d'adresse (n/k) et celle des donnees de fichier qui sont utilisees pour le calcul de la 
donnee suivante de signature numerique d'adresse (n/k)+l. 

Dans le cas general d'un filtre numerique passe-bas a (11+ 12 + 1) coefficients, les etats flous 
pris par les donnees de signature numerique d'adresses (n/k) et ((n/k) + j) seront independants 
si il n'y a pas de recouvrement entre les plages de donnees de fichier qui sont utilisees pour 
leur determination. Cette condition est satisfaite si (n + 12 + k - 1) < (n + k.j - II - k + 1) 
soitsi : j >(I1 + I2 + 2k-2)/k 

Dans le cas particulier des filtres numeriques par defaut ajustes pour un rapport d'index k, on 

substitue simplement (k x intervref -1) a (II + 12) dans l'equation precedents La condition 

d'independance est alors satisfaite si j > (intervref + 2) - 3/k, autrement dit, si l'ecart 

d'adresses entre les donnees de signatures numeriques vaut au moins (intervref +2). 

Pour tenir compte de la dependance des etats flous pris par des donnees consecutives de 

signature numerique, le modele de probabilites est modifie comme indique ci-apres. 

La probabilite de tirage d'un extrait commun de signatures numeriques de taille 1 , independant 

est notee PSI. La probabilite de tirage d'un extrait commun de signatures numeriques de taille 
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2" est egale a la probabilite de tirage PSI d'un extrait de taille 1, multipliee par la probabilite de 
tirage conditionnelle PSD (D pour dependant) d'un autre extrait de taille 1 consecutif a un 
extrait prealablement trouve de taille 1. Cette probabilite de tirage devient alors PSI x PSD. La 
probabilite de tirage d'un extrait commun de signatures numeriques de taille 3 devient PSI x 
5 PSD 2 . Finalement, la probabilite de tirage d'un extrait de taille TES devient PSI x PSD (TES_I) . 
On demon tre la relation suivante entre PSI et PSD: psD (intcrvrcf+2) < PSI 

A partir de ce nouveau modele de probability, on reevalue les formules de calcul des nombres 
Total 1 et Total2 : 

Totall = [(TF1 x TF2) / k 2 ] x [1 + (PSIx(l - PSD {TES - 1} ) / (1 - PSD))] 
10 Total2 - (TF1 x TF2) x (Na/k) 2 x PSI x PSD (TES - I} x (1 - PF TEF ) / (1 - PF) 

Pour des valeurs elevees de TEF et TES, les formules peuvent etre approchees comme suit : 

Totall - [(TF1 x TF2) / k 2 ] x [1 + (PSI / (1 - PSD))] 

Total2 = (TF 1 x TF2) x (Na/k) 2 x PSI x PSD (TES - 1} / (1 - PF) 

Et TotaB - (TF1 x TF2) x [ (1 + (PSI / (1 - PSD)) / k 2 
15 + ((Na/k) 2 x PSI x PSD (TES -°) / (1 - PF) ] 

Dans une realisation preferee, les valeurs de PSI et PSD sont determinees a Pavance par 
analyse statistique des resultats de comparaisons entre signatures numeriques obtenues avec 
des fichiers de grande taille. A cet effet, un programme specifique d 5 analyse statistique 
etalonne les valeurs a utiliser pour PSI et PSD. 

20 Pour le jeu de 4 filtres numeriques par defaut (figure 15) ajustes pour un rapport d' index k, les 

valeurs relevees pour PSI et PSD varient peu en fonction de k. La realisation utilise les valeurs 
arrondies suivantes: PSI = 0,4 et PSD = 0,6 

On a represents sur la figure 17 les variations de Totall, Total2 et TotaB en fonction de k avec 
le jeu de filtres numeriques par defaut et pour une valeur de taille minimale d'extraits 
25 communs de fichiers a trouver egale a 1000 et des tallies de fichiers a comparer de 
lOOkilooctets. 

On decrit maintenant 1' amelioration de la selectivite de la recherche d'extraits communs de 
signatures numeriques, toujours pour un moteur de recherche plein texte. 
Dans le cas simple ou les donnees de signatures numeriques ne porteraient chacune qu'un seul 
30 etat de logique flou, on peut deduire des probabilites de tirage des etats « 0 », « 1 » et « ? » la 
probabilite PSI de detection d'un extrait commun de signatures numeriques de taille 1. 
On note P0 la probabilite de tirage de Petat 0, PI celle de l'etat 1 et P? celle de I'etat ?. 
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Pour un couple donne dc positions de debut d'extraits de signatures numeriques a evaluer, les 
conditions de detection d'un extrait commun de signatures numeriques de taille 1 sont les 
suivantes: 

- si l'etat de la donnee de signature numerique associee au premier fichier vaut 0, il faut que 
l'etat de la donnee de signature numerique associee au second fichier soit egal a 0 ou a ?, 

- si l'etat de la donnee de signature numerique associee au premier fichier vaut 1, il faut que 
l'etat de la donnee de signature numerique associee au second fichier soit egal a 1 ou a ?, 

- si l'etat de la donnee de signature numerique associee au premier fichier vaut ?, l'etat de la 
donnee de signature numerique associee au second fichier peut prendre la valeur 
quelconque 0 3 1 ou ? 

Pour un couple donne de positions de debut d'extraits de signatures numeriques a evaluer, les 
probability de detection d'un extrait commun de signatures numeriques de taille 1 se 
determinent comme suit pour chaque situation precedemment presentee : 

- l'etat de la donnee de signature numerique associee au premier fichier vaut 0 et l'etat de la 
donnee de signature numerique associee au second fichier vaut 0 ou ? (Probabilite = P0 x 
(P0 + P?) 

- l'etat de la donnee de signature numerique associee au premier fichier vaut 1 et l'etat de la 
donnee de signature numerique associee au second fichier vaut 1 ou ? (Probabilite = PI x 
(PI + P?)) 

- l'etat de la donnee de signature numerique associee au premier fichier vaut ? et l'etat de la 
donnee de signature numerique associee au second fichier prend une valeur quelconque 
(Probabilite = P? x 1 = P?) 

La probabilite de detection PSI s'obtient par addition des probability de chaque situation : 

PSI = PO x (P0 + P?) + PI x (PI + P?) + P? 
La formule de determination de PSI peut encore se simplifier en remplacant (PO + P?) par (1 - 
PI), (PI + P?) par (1 - PO), et (PO + PI + P?) pari, et : 

PSI = P0x(l -P1) + P1 x(l -P0) + P? =1-2xP0xP1 
La valeur maximale de PSI vaut I. Elle est obtenue pour PO - 0 ou PI = 0. Cette situation est a 
proscrire, car, dans ce cas, la recherche d'extraits communs de signatures numeriques n'a 
aucune selectivite. 

La valeur minimale de PSI vaut 1/2. Elle est obtenue pour P? = 0 et PO = PI = 1/2. Cette 
situation est ideale et peut etre approchee si l'on utilise un filtre numerique ajuste par defaut 
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avec des valeurs elcvees pour les parametres intervref et interv, comme on Pa vu 
precedemment. 

Pour les filtres numeriques a valeur moyenne, la valeur de PSI est obtenue de maniere 
statistique par P analyse de la comparaison entre elles de signatures numeriques de grande 
5 taille. On a montre que I' application d'un filtre ideal de coupure Fe/2(k~l) se traduit par des 
probabilites PO = PI = 1/4 et P? = 1/2. II en resulte que PSI= 7/8 

On utilise done des filtres numeriques plus selectifs de sorte que PSI < 7/8, dans une 
realisation preferentielle. 

Dans le cas general ou les donnees de signatures numeriques portent chacune 4 etats de 
10 logique floue (etat supplemental « X » (interdit)), on evalue a partir des resultats precedents 
la probability PSI de detection d'un extrait commun de signatures numeriques de taille 1. On 
note PSI1, la probability de detection d'un extrait commun de signatures numeriques de taille 1 
en ne s'appuyant que sur une comparaison des etats pris par la premiere loi de determination 
d' etats flous. On note PS2, PS3 et PS4, les probabilites de detection analogues associees aux 
15 lois suivantes de determination d' etats flous (loi 1, loi 2, loi 3 et loi 4). Si les lois sont 
independantes entre elles, PSI = PSIlxPSI2xPSI3xPSI4. Dans la pratique, il y a une 
dependance entre les lois et la valeur de PSI obtenue par analyse statistique est superieure au 
produit precedent, 

Ainsi, la determination de chaque etat flou d'une signature numerique est effectuee par un 
20 calcul prealable d ? un jeu de k etats binaires consecutifs. Dans le cas d'une recherche d ? extraits 
communs de fichiers, on remarquera que la detection d'un extrait commun possible entre les 
fichiers sera toujours garantie si : 

- chaque donnee de signature numerique d'adresse (nl/k) associee au premier fichier est 
determinee par comparaison entre eux de k etats binaires consecutifs d'adresses nl, nl+l 3 

nl+k-1, et 

- chaque donnee de signature numerique d'adresse (n2/k) associee au second fichier est 
determinee par simple recopie de Tetat binaire calcule pour d'adresse n2. 

On indique en effet que, dans une realisation preferee, on compare entre elles, en fait, une 
signature numerique portant des etats flous (0, 1 ou ?) (premier fichier) a une signature 
numerique ne portant que des etats binaires (0 ou 1) (second fichier). On montre ci-apres que 
l'on ameliore ainsi la selectivity de la recherche, car on diminue simplement les probabilites de 
detection d'extraits communs aux signatures numeriques. 



25 



30 
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Pour un couple donne de positions de debut d'extraits de signatures numeriques a evaluer, les 
conditions de detection d'un extrait commun de signatures numeriques de taille 1 sont les 
suivantes : 

- si l'etat de la donnee de signature numerique associee au premier fichier vaut 0, il faut que 
l'etat de la donnee de signature numerique associee au second fichier soit egal a 0, 

- si l'etat de la donnee de signature numerique associee au premier fichier vaut 1 , il faut que 
l'etat de la donnee de signature numerique associee au second fichier soit egal a 1, 

- si l'etat de la donnee de signature numerique associee au premier fichier vaut ?, l'etat de la 
donnee de signature numerique associee au second fichier prend une valeur quelconque 0 
ou 1. 

On prend pour notation P0' et PI' les probability de tirage des etats binaires portes par les 
donnees de signature numerique associees au deuxieme fichier. On a les relations suivantes: 
P0' + Pl'= i 

P0 <P0' <, PO + P? 
PI < PI' < PI +P? 

Pour un couple donne de positions de debut d'extraits de signatures numeriques a evaluer, les 
probability de detection d'un extrait commun de signatures numeriques de taille 1 se 
determined alors comme suit pour chaque situation precedemment presentee: 

- l'etat de la donnee de signature numerique associee au premier fichier vaut 0 et 1 'etat de la 
donnee de signature numerique associee au second fichier vaut 0 (Probabilite = P0 x P0') 3 

- l'etat de la donnee de signature numerique associee au premier fichier vaut 1 et l'etat de la 
donnee de signature numerique associee au second fichier vaut 1 (Probabilite = PI x PI'), 

- l'etat de la donnee de signature numerique associee au premier fichier vaut ? et l'etat de la 
donnee de signature numerique associee au second fichier prend n'importe quelle valeur 
(Probabilite = P? x 1 = P?). 

La probabilite de detection PSF s'obtient par addition des probability de chaque situation : 
PSF = POxPO' + PlxPl' + P? 

< P0x(P0 + P?) + Plx(Pl +P?) + P? 

< PSI 

La relation PSI ' < PSI implique done une amelioration de la selectivity de la recherche en 
procedant a la comparison entre une signature portant des etats flous et une signature ne 
portant que des etats binaires. 
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On femarquera que pour un extrait commuri de signatures numeriques repere par un couple 
d'adresses de debut (nl ? n2) ? les adresses de debut a tester sur les fichiers doivent tenir compte 
de 1 'utilisation d'une signature numerique binaire pour la recherche. Dans le cas ou la 
signature numerique floue est calculee a partir du premier fichier, les adresses de debut a tester 
5 sont comprises entre (kxnl +12 4- kxTES - TEF) et (kxnl - II), soit au total; 

Naf = (TEF - II - 12 - kxTES + 1) adresses possibles. 
Dans le cas ou la signature numerique binaire est calculee a partir du deuxieme fichier, les 
adresses de debut a tester sont comprises entre : 
(kxn2 + 12 + kx(TES - 1) - (TEF - 1)) et (kxn2 - II), 
10 soit au total : 

Nab = (TEF - II - 12 - kx(TES - 1)) adresses possibles. 
Pour un filtre numerique par defaut avec parametre intervref, on obtient : 
Naf - TEF - kxintervref - kxTES + 2 
Nab = TEF - kxintervref - kx(TES - 1) + 1 

15 

On decrit ci-apres un etalonnage des lois de probabilites associees aux filtres numeriques. On a 
releve sur le tableau ci-apres les probabilites PSI et PSD de filtres numeriques a valeur 
moyenne obtenus par la comparaison de deux fichiers texte de grande taille (300 kilooctets). 



Variations de PSI et PSD en fonction de interv pour k=30 et intervref =14 


interv 


1 


2 


3 


4 


5 


6 


7 


Gumul2357 


Produit2357 


PSI 




0,773486 


0,736862 


0,721675 


0,71152 


0,707414 


0,709985 


0,430022 


0,28792163 


PSD 




0,791133 


0,785281 


0,788749 


0,78712 


0,782896 


0,784331 


0,561866 


0,38354132 


Variations de PSI et PSD en fonction de interv pour k=23 et intervref=30 


interv 


1 


2 


3 


4 


5 


6 


7 


Cumul2357 


Prodult2357 


PSI 




0,750849 


0,711247 


0,68624 


0,67309 


0,660956 


0,652175 


0,394079 


0,23442846 


PSD 




0,77943 


0,781081 


0,784095 


0,79249 


0,792396 


0,796662 


0,593634 


0,38436208 


Variations de PSI et PSD en fonction de interv pour k=30 et mtervref=30 


Interv 


1 


2 


3 


4 


5 


6 


7 


Cumul2357 


Produit2357 


PSI 




0,759058 


0,714971 


0,690597 


0,67417 


0,660454 


0,653617 


0,400642 


0,23914252 


PSD 




0,787054 


0,784398 


0,788614 


0,79325 


0,794868 


0,799158 


0,604817 


0,39136461 


Variations de PSI et PSD en fonction de k pour cumul2357 et intervref=14 


k 


2 


5 


10 


20 


50 


100 


200 


372 


5880 


PSI 




0,325587 


0,382557 


0,412087 


0,44424 


0,443922 


0,428286 


0,42322 


0,413466 


PSD 




0,473232 


0,528938 


0,546894 


0,57964 


0,590101 


0,581612 


0,583971 


0,627414 
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On constate que : 

PSI est toujours inferieur a PSD, 

pour k fixe, PSI decroit legerement quand interv augmente et PSD reste pratiquenient 
constant, 

5 - pour k fixe, PSI decroit legerement quand intervref augmente. 

Les probabilites relevees pour le cumul de 4 filtres (interv = 2, 3, 5 et 7) sont superieures au 
produit des probabilites relevees pour individuellement pour chaque filtre. On comprendra 
done qu'il y a dependance entre elles des probabilites associees a chaque loi. 
Pour s'approcher au mieux d'une situation d'independance des probabilites, on peut envisager 
10 de proceder comme suit pour adapter la realisation des fonctions de calcul des signatures 
numeriques : 

pour la loi 1, on determine des valeurs prises par les echantillons f n par utilisation d'une loi 
de codage d'entiers sur les 8 bits de chaque donnee, 

pour la loi 2, on determine ces valeurs mais apres rotation des 8 bits par decalage de 2 bits, 

15 - pour la loi 3, on determine ces valeurs mais apres rotation des 8 bits par decalage de 4 bits, 
pour la loi 4, on determine ces valeurs mais apres rotation des 8 bits par decalage de 6 bits, 
on utilise pour chaque loi un meme couple de parametres pour le filtre numerique a valeur 
moyenne, par exemple interv = 4 et intervref = 10. 
Pour les valeurs elevees de TEF (et TES), le modele mathematique d' estimation des nombres 

20 d'operations de comparaison a effectuer pour la recherche donne de bons resultats sur la 
determination automatique de valeur optimale de rapport d' index a utiliser. 
Pour les valeurs faibles de TEF (et TES), le modele mathematique d 5 estimation ne donne pas 
de bons resultats, car les traitements de recherche ne sont plus majoritairement alloues a des 
operations de comparaison. 

25 Pour chaque extrait commun de signatures numeriques trouve, un programme declenche 
Fappel d'une fonction de recherche ciblee d' extrait commun de fichier sur une plage restreinte 
de couples d'adresses de debut sur les fichiers. A chaque appel, la fonction procede a un 
certain nombre de tests de validite des parametres d'appel et d ? initialisation de variables 
locales. A chaque appel, cette fonction effectue une op6ration de lecture sur chaque fichier des 

30 donnees a comparer dont la vitesse depend des performances du disque dur et du bus de 
rordinateur. Pour tenir compte de P impact de ces temps de traitement supplementaires, on 
utilise un modele mathematique encore corrige qui ajoute, a Tetape de recherche ciblee 
d'extraits communs de fichier, des nombres d'operations de comparaison representatifs des 
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temps cTappel de la fonction de recherche ciblee et des temps de lecture des donnees a 
comparer. Typiquement, le nombre ajoute a Total2 est de la forme : 
[((TF1 x TF2) / k 2 ) x PSI x PSD (TES -'> j x [A + Bxk] , 

ou 

A est une constante representative des temps d'appel de la fonction de recherche 
ciblee, et 

B est constante representative des temps de lecture des donnees sur disque dur. 
Les valeurs des parametres A et B dependent des caracteristiques de 1'ordinateur utilise pour 
l'execution du programme et sont determinees de maniere empirique. 

On decrit ci-apres des resultats devaluation des performances avec comme ordinateur utilise 
pour revaluation un processes Pentium III a 1GHz, 128 Mo RAM, disque dur 20 Go (sous le 
systeme d'exploitation Windows 98®). 

Les performances ont ete relevees avec l'execution d'un programme informatique de recherche 
plein texte developpe specifiquement en langage C++. Le programme propose au choix 
d'utiliser un algorithme « classique » ou un algorithme au sens de l'invention pour effectuer 
une recherche d'extraits communs a deux fichiers. Les temps d'execution de l'algorithme au 
sens de Invention integrent egalement ceux decalcul des signatures numeriques. 
Afin d'eviter de fausser les mesures de performance, une attention particuliere doit etre portee 
sur le choix des fichiers utilises pour effectuer les recherches. En effet, il s'est avere au cours 
de tests que les fichiers de donnees assocjes^sJo^^ 



PowerPoint®, ou autres ont des formats de stockage qui conduisent a 1'existence de 
nombreuses plages de donnees consecutives initialises a la meme valeur 0 (0x00). Comme la 
taille de ces plages est de l'ordre de plusieurs centaines de donnees, le modele de probability 
utilise pour la realisation du programme de recherche prototype est fausse. Des adaptations de 
ce modele doivent Stre etudiee au cas par cas, comme par exemple la non prise en compte dans 
la fonction de recherche ciblee du couple valeurs de donnees (0,0) comme position de debut 
d' extrait commun. 

Le choix de type de fichier texte s'est porte plutot sur des documents texte de grande taille au 
format HTML. La vitesse de recherche est exprimee en million d'operations de comparaison 
par secondes (Mega ops/sec). Le premier fichier est de taille: 213275 octets et le second 
fichier de taille : 145041 octets. Le tableau ci-apres montre les resultats obtenus. 
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Taille minimale des extraits 
a trouver 


100 


150 


200 


250 


Algorithme classique 




Vitesse moyenne de recherche 


46,5 


46,5 


46,5 


46,5 


Temps de recherche 


11m03.99s 


11m03,99s 


11m03.99s 


11m03.99s 


Algorithme de Hnvention 


Vitesse moyenne de recherche 


116,50 


205,18 


299,05 


391,07 


Temps de recherche 


04m25,180s 


02m30,500s 


01m43,200s 


01m18,870s 


Facteur de gain 


2,51 


4,41 


6,43 


8,41 






Taille minimale des extracts 
a trouver 


500 


750 


1000 


1500 


Algorithme classique 




Vitesse moyenne de recherche 


46,5 


46,5 


46,5 


46,5 


Temps de recherche 


11m03.99s 


11m03.99s 


11m03,99s 


11m03.99s 


AUgorithme de ^invention 




Vitesse moyenne de recherche 


1305,38 


3051,29 


4931,66 


9711,95 


Temps de recherche 


017123,560s 


0m10,050s 


0m06,200s 


0m03,130s 


Facteur de gain 


28,07 


65,62 


106,06 


208,86 






Taille minimale des extraits 
a trouver 


2000 


2500 


5000 


7500 


Algorithme classique 


Vitesse moyenne de recherche 


46,5 


46,5 


46,5 


46,5 


Temps de recherche 


11m03.99s 


1 1 m03.99s 


11m03.99s 


11m03.99s 


Algorithme de Hnvention 


Vitesse moyenne de recherche 


15740,09 


21929,98 


58334,07 


101080,35 


Temps de recherche 


OmO 1,920s 


0m01 ,370s 


0m00,500s 


0m00,280s 


Facteur de gain 


338,50 


471,61 


1254,50 


2173,77 




On decrit maintenant d'autres applications de recherche d'extraits communs probables. Dans 
certains domaines d' application, les criteres de detection d 5 extraits communs de fichiers 
different de l'identite parfaite des extraits a trouver. Cest notamment le cas de fichiers de 
donnees representatifs de la numerisation d'un signal, tels que par exemple des fichiers audio 
(avec une extension .wav par exemple). 
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On sait que la valeur des echantillons obtenus dependra de la phase de Phorioge 
d'echantillonnage. On sait par ailleurs que le dispositif de numerisation introduit d'autres 
erreurs sur les valeurs des echantillons (bruit, gigue d'horloge, dynamique, ou autre). 
Pour ces applications, le principe de Palgorithme de recherche au sens de V invention pent etre 
5 adapte pour se borner a la seule etape de recherche grossiere entre fichiers. On peut done 
resumer les etapes prevues comme suit : 

calcul d'une signature numerique par fichier a comparer, 
- et comparaison des signatures numeriques a la recherche d'extraits communs de signatures 
numeriques. 

10 On va montrer dans ce qui suit comment on peut se definir un critere de detection d'extrait 
commun a 1'aide de probability. 

On a montre precedemment, dans le cadre de 1 5 optimisation de la valeur du rapport 
d'index, que le nombre d'operations de comparaison pour effectuer la recherche entre 
signatures numeriques est estime a : 
15 Totall = [(TF1 x TF2) / k 2 ] x [1 + (PSIx(l - PSD (TES ~ l) ) / (1 - PSD))] 

On a egalement montre que la probability de tirage d'un extrait commun de signatures 
numeriques vaut PSIxPSD (TES " 1} . 

Le nombre probable d'extraits communs de taille minimale TEF qui sera trouve par la 
comparaison entre eux de deux fichiers de tailles respectives TF1 et TF2 devient done: 

20 N ~ [ (TFlxTF2) / k 2 ] x PSIxPSD (TES - 1} , avec 

TES - partie entiere de [(TEF - II - 12 + 1) / k] -1 
L'optimisation de la valeur de k depend du compromis entre la vitesse de recherche 
(inversement proportionnelle a Totall) qui croit quand k augmente (on a done interet a utiliser 
des valeurs elevees pour k) et le nombre N qui croit quand k augmente (on doit done baisser la 
valeur de k si Ton veut limiter le nombre d'extraits communs probables detectes). 
L'optimisation de la valeur de k est faite en se fixant a l'avance une valeur cible Nc pour N et 
une valeur de taille minimale d'extrait a trouver TEF. A partir de ces parametres, on evalue la 
valeur de N pour toutes les valeurs autorisees de k et on retient la valeur de k qui permet 
d'approcher au mieux la valeur Nc. 

Cette methode de recherche introduit une imprecision sur les positions de debut des extraits 
communs probables trouves. Dans le cas d'une recherche d'extraits communs entre une 
signature floue et une signature binaire (correspondant a un mode de realisation prefere), 
1' imprecision sur la position de debut de Pextrait commun probable de fichiers est de Pordre 



25 



30 
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de -Hk ou -k sur le fichier associe a la signature floue, et de l'ordre de 4k ou -2k sur le fichier 
associe a la signature binaire. 

La probabilite effective de detection d'un extrait commun de signatures numeriques peut etre 
approchee par une analyse des variations prises par les etats de 1' extrait sur la signature floue. 
5 Avantageusement, la realisation preferee evalue une probabilite plafond en detectant le nombre 
transitions intervenant entre donnees a Petat 0 et a l'etat 1, ce qui permet de filtrer du resultat 
de recherche les extraits communs dont la probabilite mesuree est superieure a un seuil 
predefmi, et ainsi d'eviter de mettre en defaut le modele de probabilite statistique 
(PSIxPSD (TES ~ l) ) utilise pour optimiser les parametre de recherche. 

10 

Dans le cas des fichiers audio, la recherche d'extraits audio communs a deux fichiers 
d ! enregistrement se resume done comme suit. On commence par un calcul prealable de 
signatures numeriques associees a chaque fichier. A Tissue de cette premiere etape, on peut 
assimiler un fichier de signature numerique comme etant une succession d'etats logiques qui 

15 caracterisent des plages horaires consecutives de duree fixe du signal audio. Typiquement, si 
Ton choisit une duree de plage horaire d'une seconde pour chaque donnee de signature 
numerique, le traitement d'un fichier audio d'une heure se traduit par la creation d'un fichier de 
signatures numeriques de 3600 donnees (une par seconde). La premiere donnees de signature 
caracterise la premiere seconde d'enregistrement, la deuxieme donnee la deuxieme seconde, et 

20 ainsi de suite. 

La recherche d'extraits audio communs s'effectue ensuite en comparant entre elles les donnees 
de signatures numeriques qui ont ete calculees a pattir de chaque enregistrement audio. Tout 
extrait commun est caracterise par un couple de groupes de N donnees consecutives de 
25 signatures numeriques (le premier groupe de donnees de signatures etant associe au premier 
fichier audio et le deuxieme groupe etant associe au deuxieme fichier audio) et pour lesquels il 
y a une compatibilite entre les N etats de logique flou consecutifs du premier groupe avec les 
N etats de logique flou consecutifs de deuxieme groupe. 

30 L T adresse de la premiere donnee de signature num6rique du premier groupe Gl permet de 
reperer la position horaire de debut d'extrait commun dans le premier fichier audio. L'adresse 
de la premiere donnee de signature numerique du deuxieme groupe G2 permet de reperer la 
position horaire de debut d'extrait commun dans le second fichier audio. Le nombre N (de 
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donnees consecutives trouvees en relation) permet de deduire la duree de Pextrait trouve par 
simple multiplication avec la duree des plages horaires associees a chaque donnee de signature 
numerique. 

Par exemple, dans Phypothese ou Von aurait calcule des signatures numeriques sur un premier 
fichier audio 1 d'une heure et sur un second fichier audio2 d'une heure en se fixant une duree de 
plage horaire de 1 seconde par donnee de signature numerique, dans le cas ou le resultat de la 
recherche donnerait un extrait commun de signatures numeriques de 20 donnees consecutives 
repere par Padresse 100 sur la signature 1 et par Padresse 620 sur la signature 2, ce resultat de 
recherche se traduirait par un extrait commun audio d'une duree de 20 secondes repere par un 
horaire de debut de 1 minute 40 secondes sur le fichier audio 1 et par un horaire de debut de 10 
minutes 20 secondes sur le fichier audio2. 

Contrairement a la recherche d'extraits a Pidentique dans des fichiers texte, il n*y a pas d'autres 
etape dans le traitement qui permette de lever le doute sur Identification des extraits qui sont 
releves a Petape de comparaison des signatures numeriques. L'algorithme mathematique qui est 
utilise pour le calcul des signatures numeriques garantit que si il existe un extrait commun 
entre les deux fichiers audio, un extrait commun sera alors detecte entre les signatures 
numeriques. Toutefois, la condition reciproque est fausse : il y a une possibilite de detecter des 
extraits communs de signatures n umeriques qui ne cnrr&spnnrimt n^ g a> des extraits commune 




Afin de disposer d'un indice de confiance sur les resultats de recherche, le traitement utilise un 
modele de probabilite qui permet de calculer un taux d'erreur de fausses detections. Le modele 
consiste a calculer la probabilite de mise en correspondance d'un groupe de N donnees 
consecutives de signatures numeriques representatif d'un extrait audio avec un autre groupe de 
N donnees consecutives de signatures numeriques dont les valeurs sont aleatoires et 
representative d ! un signal audio aleatoire. 

La probabilite P(N) de detection d'un extrait commun de N donnees de signatures numeriques 
s'exprime alors sous une forme P exp(N), P etant la probabilite de tirage d ? un extrait commun 
de taille L Dans la pratique, et compte tenu de Pemploi simultane de plusieurs etats de logique 
flou, P est inferieure a 1/2 et on majore done P(N) par 1/2 exp(N). Sachant que Pon peut 




audio. 
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approximer 2 10 par 10 3 , on d<§duit facilement la probability de fausse detection d'un extrait 
commun de N donnees: P(10) < 10" 3 , P(20) < 10" 6 , .... 



Pour evaluer le nombre probable de fausses detections qui sera associe a la comparaison de 
5 deux fichiers audio, il faut multiplier cette valeur P(N) par le nombre total de couples de 
positions de debut d'extraits de signatures numeriques qui est teste lors de Fetape de 
comparaison des signatures numeriques. Si Ton prend SI comme notation du nombre de 
donnees de signatures numeriques du fichier audio 1 et S2 pour le fichier audio2, le nombre 
probable de fausses detections devient P(N) x SI x S2. 

10 

Comme indique plus haut, ce nombre est divise par 2 , chaque fois que Ton augmente de 1 la 
taille des extraits communs de signatures numeriques recherches (et divise par 1000 si Ton 
augmente la taille de 10). 

15 Pour affiner P algorithms de detection d'extraits musicaux, on a ajuste la taille minimale 
d'extrait commun de signatures a 50 donnees ce qui garantit une probability de fausse detection' 
inferieure a 10~ 15 . Ce choix tient compte du caractere non aleatoire des signaux audio traites, 
qui dans le cas de la musique comportent de nombreuses plages repetitives (refrains, et autres). 
Cette taille pent bien sur etre adaptee au besoin d'autres applications, soit pour augmenter, soit 

20 pour diminuer le taux d'erreur acceptable. 

A partir cette taille minimale d'extrait, le programme determine a rebours la duree minimale 
des extraits a rechercher en fonction de la valeur de duree associee a chaque donnee de 
signature (1' inverse de la frequence des donnees de signatures). 

25 

Pour une frequence de signature numerique de 25 Hz (25 donnees par secondes), le 
programme permet de rechercher des extraits audio d'une duree minimale de 2 secondes (50 x 
l/25s). Pour une frequence de signature numerique de 5 Hz (5 donnees par secondes), le 
programme permet de rechercher des extraits audio d f une duree minimale de 10 secondes (50 x 
30 l/5s). Pour une frequence de signature numerique de 1 Hz (1 donnee par secondes), le 
programme permet de rechercher des extraits audio d'une duree minimale de 50 secondes. 
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Dans la pratique, c'est Implication qui fixe la valeur seuil de duree minimale d'extrait audio a 
rechercher. Pour des applications de piges publicities, le besoin est de detecter des extraits de 
spots de television ou de radio de Pordre de 5 s. Pour des applications de reconnaissance de 
titres musicaux, le besoin est de detecter des extraits de I'ordre 15 s. Pour des applications de 
reconnaissance de programmes de television (films, series, etc), le besoin est de detecter des 
extraits de I'ordre de la minute. 

On indique en outre que dans 1'application a des fichiers audio, video, ou autres, ou les premier 
et second fichiers sont des fichiers d'echantillons de signaux numerises, le procede au sens de 
l'invention comporte avantageusement une etape de pre-traitement des donnees, par exemple 
par filtrage en sous-bandes, et une prise en compte des donnees associees a des portions de 
signal de niveau superieur a une reference de bruit, pour limiter des effets d'egalisations 
differentes entre les premier et second fichiers. 

En outre, le procede prevoit avantageusement une etape de consolidation des resultats de 
recherche, preferentiellement par ajustement de tallies relatives des paquets des premier et 
second fichiers, de maniere a tolerer un ecart en vitesses de restitution respectives des premier 
et second fichiers. 

Enfin, on indique que l'un _au^ains_des-^remier-et-seeond-fiehiers-peut-ei 
application, un flux de donnees, et le procede de recherche d'extraits communs est alors 
execute en temps reel. 

Un programme specifique, ecrit en langage C++, a ete developpe pour effectuer la recherche 
d'extraits communs avec des micro-ordinateurs equipes d'un systeme d' exploitation Windows 
32bits. II propose de selectionner deux fichiers a comparer, de definir la taille minimale des 
extraits communs a y trouver, puis de lancer la recherche. 

Des le lancement de la recherche, le programme affiche avantageusement une fen8tre de suivi 
d'execution. Cette fenetre indique le temps ecoule depuis de la debut de la recherche et des 
estimations de la duree totale et de la vitesse de recherche. Bile permet egalement 
d'abandonner la recherche si il s'avere que sa duree est jugee trop longue. La recherche 
s'interrompt des qu'un extrait commun a ete trouve. La taille de l'extrait trouve et sa position 
dans chaque fichier sont alors affiches. Le programme effectue l'analyse des fichiers en 
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suivant un ordre predefini. Le principe est de tester chaque couple de positions de debut 
pouvant etre pris par un extrait commun dans les fichiers. 

Sa mise en ceuvre est decrite dans les presentations ci-apres des algorithmes de recherche. On 
indique que la recherche pent etre reprise pour trouver d'autres extraits communs aux fichiers. 
5 Dans ce cas, la recherche est reprise a partir du couple de positions de debut du dernier extrait 
commun trouve et en suivant r ordre predefini d' analyse des fichiers. La recherche s'arrete 
quand les fichiers ont ete entierement analyses. Les conditions de V arret sont alors affichees 
pour indiquer selon le cas qu'il n'y a pas d' extrait commun aux fichiers ou qu'il n'y a pas 
d' autre extrait commun aux fichiers. 

10 Le programme propose d'utiliser au choix deux algorithmes pour effectuer des recherches : un 
algorithme de recherche classique et un algorithme au sens de 1'invention. 
Le programme permet ainsi de comparer sur un meme micro-ordinateur les performances des 
deux algorithmes, et ce, pour une configuration de recherche quelconque, en termes de taille 
minimale des extraits communs a rechercher, de taille des fichiers, de nature des fichiers, ou 

15 autres. 

Le critere d ? evaluation des performances est la rapidite d 9 execution des algorithmes. Les 
fenetres de suivi d' execution permettent de recuperer les estimations telles que la duree 
d' execution pour accomplir la recherche, la vitesse de recherche, et autres. 
II est apparu avec 1 'algorithme classique que la vitesse de recherche est pratiquement constante 
20 et ne depend pas de la taille minimale des extraits communs a trouver. Bile s'exprime en 
nombre d 5 operations de comparaison de donnees binaires (octets) par seconde qui sont 
effectuees par Fordinateur. Sa valeur est toujours inferieure a la frequence d'horloge du 
microprocesseur. 

En revanche, avec 1' algorithme au sens de 1'invention, la vitesse de recherche varie en fonction 
25 de la taille minimale des extraits communs a trouver, Eile s'exprime par une estimation du 
nombre d' operations de comparaison de donnees binaires (octets) par seconde qui seraient 
effectuees par Tordmateur si l'algorithme classique etait utilise. Ainsi, plus la taille minimale 
des extraits communs a trouver augmente, plus la vitesse augmente. Sa valeur peut depasser 
celle de la frequence d'horloge du microprocesseur. 

30 

On a represente sur la figure 19A une copie d'ecran d'une boite de dialogue dans le cadre 
d'une interface homme machine d'un programme informatique au sens de 1'invention, pour 
une recherche, a Pidentique, d' extraits communs entre deux fichiers textes. La figure 19B 
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represente urie copie d' ecran indiquant revolution de-la recherche defmie sur la page d' ecran 
de la figure 19 A. On constatera que le temps pris par cette recherche est de deux secondes, 
alors que les tallies des fichiers etaient respectivement de 85390 octets et 213275 octets (figure 
19 A). 

5 

On a represente sur la figure 19C une copie d'ecran pour une recherche d'extraits communs 
entre deux fichiers audio, an format .WAV. Comme indique ci-avant, il s'agit 
preferentlellement d'une recherche qui n'est pas a l'identique, mais dont les parametres 
(desquels decoule en particulier l'indice de confiance decrit ci-avant) sont determines dans 
10 cette boite de dialogue (partie superieure de la figure 19C). Ici, on dispose d'un enregistrement 
d'une heure de radio (103,9 MHz en FM a Paris), d'une part, et une base de 244 
enregistrements sonores (musique, spots publicitaires, etc), d'autre part. La recherche a detecte 
83 extraits communs de la base dans 1' enregistrement radio. 

La figure 19D represente enfm une copie d'ecran pour la creation de fichier de signature 
15 numerique elabore a partir d'un traitement en temps reel de signaux audio, correspondant a un 
enregistrement radio (105,5 MHz a Paris) de deux heures de duree, a une frequence 
d'echantillonnage de 22,050 kHz. On indique que la precision de la signature (ici choisie a 
5Hz, parmi un choix de 2, 5 ou 25Hz) correspond au nombre de donnees dans la signature 
num6rique, par seconde de morceau de musique. Ce parametre permet notamment d'affiner la 
20 precision de 1'instant de debut de detection d'extraits communs. 

On a represente sur la figure 18 le contexte d'une autre application de la presente invention, en 
particulier a la mise a jour a distance de Tun des premier et second fichiers par rapport a l'autre 
des premier et second fichiers. On prevoit a cet effet une installation informatique, 

25 comportant : 

- une premiere entite informatique PCI propre a stocker le premier fichier, 

- une seconde entite informatique PC2 propre a stocker le second fichier, et 

- des moyens de communications COM entre les premiere PCI et seconde PC2 unit6s 
informatiques. 

30 Lune des entites au moins (PCI et/ou PC2) comporte une memoire (respectivement MEM1 
et/ou MEM2) propre a stocker le produit programme d'ordinateur tel que decrit ci-avant, pour 
la recherche d'extrait commun entre les premier et second fichiers. 
A ce titre, la presente invention vise aussi une telle installation. 
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Ici, l'entite stockant ce produit programme d'ordinateur est alors capable d'effectuer une mise a 
jour a distance de Pun des premier et second fichiers par rapport a Tautre des premier et second 
fichiers, en comparant deja les premier et second fichiers. Ainsi, Tune des entiles peut avoir 
5 fait evoluer un fichier informatique par des nouvelles saisies de donnees ou autres 
modifications dans une certaine periode (une semaine, un mois, ou autre). L' autre entit6 
informatique, qui dans cette application, doit assurer le stockage et la mise a jour reguliere des 
fichiers issus de la premiere entite, regoit ces fichiers. 

10 Plutot que de transferer completement les fichiers a mettre a jour de la premiere entite vers la 
deuxieme entite, la premiere entite repere par le precede au sens de I'invention les extraits de 
donnees qui sont communs entre deux versions d T un meme fichier, la nouvelle version qui a ete 
modifiee par ajout ou par suppression de donnees, et Tancienne version qui a ete prealablement 
transmise a Tautre entite et dont la premiere entite a conserve localement une sauvegarde. Cette 

15 comparaison au sens de 1'invention permet de creer un fichier de differences entre la nouvelle 
version et Tancienne version du fichier qui comporte des informations de position et de taille 
des extraits communs de donnees qui peuvent etre utilises pour reconstruire partiellement la 
nouvelle version du fichier a partir des donnees de l'ancienne version du fichier, et qui 
comporte les complements de donnees qui doivent etre utilises pour achever la reconstruction 

20 de la nouvelle version de fichier. La mise a jour du fichier s'effectue ensuite en procedant par 
une transmission du fichier de differences vers la deuxieme entite, puis en appliquant ensuite 
un traitement local a la deuxieme entite de reconstruction de la nouvelle version du fichier par 
combinaison de l'ancienne version du fichier et dudit fichier de differences. 

25 L'application du precede au sens de 1'invention permet de reduire considerablement les temps 
de traitement necessaires a la generation dudit fichier de differences et permet de reduire le 
volume des donnees a transferer (et done les cout et temps de transfert) pour effectuer la mise a 
jour a distance de fichiers informatiques volumineux n'ayant subi que peu de modifications, 
notamment lorsque de tels fichiers comportent des donnees comptables, bancaires ou autres. 

30 

Les entites informatiques peuvent se presenter sous la forme de tout dispositif informatique 
(ordinateur, serveur, ou autre) comportant une memo ire pour stocker (au moins 
momentanement) les premier et second fichiers, pour la recherche d'au moins un extrait 
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10 



15 



commun entre le premier fichier et le second fichier. lis sont alors equipes d'une memoire 
stockant aussi les instructions d'un produit programme d'ordinateur du type decrit ci-avant. 
A ce titre, la presente invention vise aussi un tel dispositif informatique. 

Elle vise aussi un produit programme d'ordinateur, destine a etre stocke dans une memoire 
d'une unite centrale d'un ordinateur tel que le dispositif informatique precite ou sur un support 
amovible destine a cooperer avec un lecteur de cette unite centrale. Ce produit programme 
comporte des instructions pour derouler tout ou partie des etapes du traitement au sens de 
P invention decrit ci avant. 

La presente invention vise aussi une structure de donnees destinees a etre utilisees pour une 
recherche d'au moins un extrait commun entre un premier et un second fichier, la structure de 
donnees etant representative du premier fichier, des lors que cette structure de donnees est 
obtenue par ^application du traitement au sens de l'invention pour former une signature 
numerique. En paiticulier, cette structure de donnees est obtenue par la mise en oeuvre des 
etapes a) et b) du procede enonce ci-avant et comporte une succession d'adresses identifiant 
des adresses du premier fichier et a chacune desquelles est affecte un etat en logique floue 
parmi les etats : "vrai" (1), "faux" (0) et "ind6termine" ( ?). 
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Revendications 

L Procede de recherche de contenu, dans lequel on recherche au moins un extrait commun 
entre un premier fichier et un second fichier, sous forme de donnees binaires, caracterise en ce 
qu T il comporte une preparation prealable du premier fichier au moins, comprenant les etapes 
suivantes : 

a) segmenter le premier fichier en une succession de paquets de donnees, de taille choisie, et 
identifier des adresses de paquets dans ledit fichier, 

b) associer a Tadresse de chaque paquet une signature numerique definissant un etat en 
logique floue parmi au moins trois etats : l, vrai n , "faux" et "indetermine", ladite signature 
resultant d'un calcul combinatoire sur des donnees issues dudit fichier, 

et en ce que le procede se poursuit par une recherche d'extrait commun, proprement dite, 
comprenant les etapes suivantes : 

c) comparer les etats de logique floue associes a chaque adresse de paquet du premier fichier, 
avec des etats de logique floue determines a partir de donnees issues du second fichier, 

d) eliminer de ladite recherche d'extrait commun des couples d'adresses respectives des 
premier et second fichiers dont les etats logiques respectifs sont "vrai" et "faux" ou "faux" 
et "vrai", et conserver les autres couples d'adresses identifiant des paquets de donnees 
susceptibles de comporter ledit extrait commun. 

2. Procede selon la revendication 1, caracterise en ce que, a 1'etape b), on affecte a un paquet 
de donnees l'etat : 

"vrai" si toutes les donnees du paquet verifient une premiere condition, 

- "faux" si toutes les donnees du paquet verifient une seconde condition, contraire a la 
premiere condition, 

- et "indetermine" si certaines donnees du paquet verifient la premiere condition, tandis que 
d'autres donnees du paquet verifient la seconde condition. 

3. Procede selon Tune des revendications 1 et 2, caracterise en ce que Von applique aux 
donnees d'un fichier un traitement prealable a i'etape b) et comportant les etapes suivantes : 
al) on considere les donnees du fichier en tant que suite d f echantillons obtenus a une 

frequence d'echantillonnage predeterminee (Fe), et de valeurs codees selon un code de 
representation binaire, et 
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a2) on applique iin filtre numerique sur lesdits echantillons (f n ), adapte pour minimiser une 
probability d'obtention de I'etat "mdetermine" pour les signatures numeriques associees 
aux paquets d'echantillons. 



10 



4. Procede selon la revendication 3 3 caracterise en ce que Implication dudit filtre numerique 
revient a : 

- appliquer une transformee spectrale aux donnees echantillonnees, 
appliquer un filtre passe-bas a ladite transformee spectrale, 

- et appliquer une transformee spectrale inverse apres ledit filtre passe-bas. 



5. Procede selon la revendication 4, caracterise en ce que le filtre passe-bas opere sur une 
bande de frequences comprenant sensiblement 1'intervalle : 

[-Fe/2(k-l),+Fe/2(k-l)] 3 
ou Fe est ladite frequence d'echantillonnage, 
15 et k est le nombre d'echantillons que comporte un paquet 

6. Procede selon Tune des revendications 4 et 5, caracterise en ce que ledit filtre numerique 
comporte un nombre predetermine de coefficients de meme valeur, 

et en ce que la reponse frequentielle du filtre passe-bas associe s'exprime, en fonction de la 

20 frequence f, par une expression du type : 

sin(PIXT)/(PLfT), 
ou sin() est la fonction sinus, et avec : 

- PI = 3,1416, et 

- T=(K-1)/Fe ou K est ledit nombre predetermine de coefficients et Fe ladite frequence 
25 d'echantillonnage. 



7, Procede selon Fune des revendications 3 a 6, caracterise en ce que ledit filtre numerique est 
un filtre a valeur moyenne d'un nombre predetermine (2K+1) de coefficients, et en ce que la 
difference entre deux echantillons filtres successifs (r„-H-r n ) est proportionnelle a la difference 
entre deux echantillons non filtres (f n+ K + i-f„.K) ? respectivement d'un premier rang et d*un second 
rang, espaces dudit nombre predetermine de coefficients, et en ce que le calcul desdits 
echantillons filtres est effectue en exploitant cette relation pour reduire le nombre d 5 operations 
de calcul a effectuer. 
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8. Precede selon Tune des revendications 6 et 7, caracterise en ce que ledit nombre 
predetermine de coefficients du filtre (2K+1) est superieur on egal a 2k- 1, oil k est le nombre 
d'echantillons que comporte un paquet. 

5 

9. Precede selon Tune des revendications 3 a 8, prises en combinaison avec la revendication 2, 
caracterise en ce que : 

Tetat "vrai" est affecte a l'adresse d'un paquet si, pour ce paquet, tous les echantillons 
filtres ont une valeur superieure a une valeur de reference choisie (Vref), 
10 - Fetat "faux" est affecte a l'adresse d'un paquet si, pour ce paquet, tous les echantillons 
filtres ont une valeur inferieure a une valeur de reference choisie (Vref), et 
l'etat "indetermine" est affecte a Tadresse d'un paquet si, pour ce paquet, les echantillons 
filtres ont, pour certains, une valeur inferieure a ladite valeur de reference (Vref), et, pour 
d'autres echantillons filtres, une valeur superieure a ladite valeur de reference (Vref). 

15 

10. Procede selon la revendication 9, caracterise en ce que, pour tout echantillon filtre r n , 
d'ordre donne n ? ladite valeur de reference (Vref) est calculee en moyennant les valeurs des 
echantillons non filtres ft, sur un nombre choisi d'echantillons consecutifs non filtres (Kref) 
autour d'un echantillon non filtre ft, du meme ordre donne n. 

20 

11. Procede selon la revendication 10, caracterise en ce que les valeurs des echantillons filtres 
sont ramenees, pour comparaison, a une valeur seuil nulle, 

et en ce que lesdits echantillons filtres r ! n s'expriment par une somme du type : 

(A'/2)-l (^c//2)-l 

r « = K ref S fn+k ~ K X fn+k > otl : 
k~-(K/2) k=-(K rcf /2) 

25 - f n +k sont des echantillons non filtres obtenus a l'etape al), 

K est le nombre de coefficients du filtre numerique, preferentiellement choisi pair, et 

K rcf est ledit nombre d'echantillons non filtres autour d'un echantillon non filtre f m 

preferentiellement choisi pair et superieur audit nombre de coefficients K. 

30 12. Procede selon la revendication 11, caracterise en ce que Ton applique ladite somme aux 
echantillons non filtres f n une pluralite de fois, selon un traitement effectue en parallele, en 
faisant varier respectivement le nombre de coefficients K. 
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13. Precede selon l'une des revendications precedentes, caracterise en ce que les etats flous 
associes an premier fichier au moins sont codes chacun sur au moins deux bits. 

14. Precede selon la revendication 13, prise en combinaison avec la revendication 12, 
caracterise en ce que les etats flous determines pour un nombre de coefficients K le pins faible 
sont code* sur des bits de poids le plus faible et les etats flous determines pour un nombre de 
coefficients K plus grand sont codes sur des bits suivants, jusqu'a un nombre total choisi de 
bits. 



15. Procede selon Tune des revendications 3 et 10, caracterise en ce que chaque echantillon 
filtre r n s'exprime comme une somme du type : 



r , = 2 fibre, * /<„+/) >°u 



/=-/. 



~ f(n+o sont des echantillons non filtres, 

- filtrei sont des coefficients d'un filtre numerique, integrant, le cas echeant, une valeur seuil 
ramenee a zero, 

et en ce que Ton choisit un nombre k d'echantillons non filtres que comporte un paquet, au 
minimum egal a 2 et inferieur ou egal a une expression du type : 
-(XBF-I-^^^^-TEFestnme laille minimale souKaitee des extraits communs recherches. 

16. Procede selon la revendication 15, caracterise en ce que : 

- pour une valeur donnee TEF de la taille minimale souhaitee d'extraits communs 
recherches, on determine une plage de valeurs utilisables pour ledit nombre k 
d'echantillons non filtres que comporte un paquet, 

- et, pour chaque valeur utilisable du nombre k, on determine une taille optimale TES d'une 
succession de donnees de signatures numeriques pour laquelle la detection d'un extrait 
commun de taille TEF est garantie, 

et en ce que ladite taille optimale TES est inferieure ou egale a une expression du type : 
E[(TEF-I,-I 2 +l )/k]-l, ou E(X) designe la partie entiere de X. 
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17. Precede selon Tune des revendications precedentes, dans lequel les deux fichiers a 
comparer comportent des donnees representatives de caracteres alphanumeriques, notamment 
du texte et/ou un code informatique on genetique, 

caracterise en ce que le procede comporte : 
5 - un premier groupe d'etapes comportant la formation des signatures numeriques et leur 
comparaison, pour une recherche grossiere, et 

- un second groupe d'etapes comportant une comparaison a l'identique dans les plages 
d'adresses verifiant la comparaison grossiere, 

en ce que Ton considere les donnees d'un fichier en tant que suite d'echantillons, avec un 
1 0 nombre choisi k d'echantillons par paquet, 

et en ce que la valeur de ce nombre choisi k est optimisee initialement en recherchant un 
minimum d'operations de comparaison a effectuer. 

18. Procede selon la revendication 17, caracterise en ce que, pour Toptimisation du nombre 
1 5 choisi k d'echantillons par paquet, on tient compte d'un nombre total : 

- d'operations de comparaison de signatures numeriques a effectuer, et 
d'operations de comparaison de donnees a l'identique a effectuer ensuite, 

et en ce que ledit nombre total d'operations est minimum pour un ensemble fmi de nombres k. 

20 19. Procede selon Tune des revendications 17 et 18, caracterise en ce que Ton obtient une 
information relative a une taille minimale souhaitee d r extraits communs recherches (TEF), 
utilisee pour optimiser ledit nombre choisi k d^chantillons par paquet, 

et en ce que le nombre optimal k d'echantillons par paquet varie sensiblement comme Iadite 
taille minimale (TEF), de sorte que plus taille minimale souhaitee d'extraits communs 
25 recherches est grande et plus la duree de la recherche d'extrait commun est courte. 

20. Procede selon Pune des revendications 1 a 16, caracterise en ce que la recherche d'extraits 
communs consiste en un unique groupe d'etapes comportant la formation des signatures 
numeriques et leur comparaison, et en ce que le nombre de donnees par paquet est optimise en 
30 se fixant initialement un indice de confiance caracterisant un seuil acceptable de probability de 
fausse detection d'extraits communs. 
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21. Precede selon l'une des revendications 3 a 20, caracterise en ce que, pour le premier 
fichier : 

- on applique l'echantillonnage a une frequence d'echantillonnage choisie, 

- le filtrage numerique correspondant a un filtrage passe-bas dans l'espace des frequences, et 

- la combinaison des echantillons filtres pour obtenir des signatures numeriques a l'etat 
"vrai", "faux" ou "indetermine", associees aux adresses respectives du premier fichier, 

tandis que, pour le second fichier : 

- on applique l'echantillonnage a une frequence d'echantillonnage choisie, 

- le filtrage numerique correspondant a un filtrage passe-bas dans l'espace des frequences, et 

- on determine l'etat Iogique associe a chaque paquet d'echantillons filtres a partir de l'etat 
logique associe a un seul echantillon filtre choisi dans chaque paquet, 

de maniere a obtenir des signatures numeriques ne comportant que des etat logiques "vrai" ou 
"faux" et ainsi a ameliorer la selectivite de la comparison des signatures numeriques. 

22. Procede selon la revendication 21, caracterise en ce que : 

- si l'etat logique associe a une adresse du premier fichier est "vrai" ou "indetermine", tandis 
que l'etat logique associe a une adresse du second fichier est "vrai", le couple desdites 
adresses est retenu pour la recherche d'extrait commun, 

- si l'etat logique associe a une adresse du premier fichier est "faux" ou "indetermine", tandis 
que l'etat logique asso i n e_a_ua eL j^ 



adresses est retenu pour la recherche d'extrait commun, 
tandis que les autres couples d'adresses sont exclus de la recherche. 

23. Procede selon la revendication 20, dans lequel les premier et second fichiers sont des 
fichiers d'echantillons de signaux numerises, caracterise en ce que le procede comporte une 
etape de pre-traitement des donnees et une prise en compte des donnees associees a des 
portions de signal de niveau superieur a une reference de bruit. 

24. Procede selon l'une des revendications 20 et 23, dans lequel les premier et second fichiers 
sont des fichiers d'echantillons de signaux numerises, caracterise en ce que le procede prevoit 
une etape de consolidation des resultats de recherche, preferentiellement par ajustement de 
tailles relatives des paquets des premier et second fichiers, de maniere a tolerer un ecart en 
vitesses de restitution respectives des premier et second fichiers. 
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25. Procede selon Tune des re vendi cations precedentes, caracterise en ce que Tun an mo ins des 
premier et second fichiers est un flux de donnees, 

et en ce que le procede de recherche d'extraits communs est execute en temps reel 

5 

26. Produit programme d'ordinateur, destine a etre stocke dans une memoire d'une unite 
centrale d'un ordinateur ou sur un support amovible destine a cooperer avec un lecteur de ladite 
unite centrale, caracterise en ce qu'il comporte des instructions pour derouler tout ou partie des 
etapes du procede selon Tune des revendications precedentes. 

10 

27. Structure de donnees destinees a etre utilisees pour une recherche d'au moins un extrait 
commun entre un premier et un second fichier, la structure de donnees etant representative du 
premier fichier, 

caracterisee en ce qu'elle est obtenue par la mise en ceuvre des etapes a) et b) du procede selon 
15 Tune des revendications 1 a 25, 

et en ce qu'elle comporte une succession d'adresses identifiant des adresses du premier fichier 
et a chacune desquelles est affecte un etat en logique floue parmi les etats : "vrai", "faux" et 
"indetermine". 

20 28. Dispositif informatique, comportant une memoire pour stocker au moins des premier et 
second fichiers, pour la recherche d'au moins un extrait commun entre le premier fichier et le 
second fichier, caracterise en ce qu'il comporte une memoire propre a stocker les instructions 
d f un produit programme d f ordinateur selon la revendication 26. 

25 29. Installation informatique, comportant : 

- une premiere entite informatique propre a stocker un premier fichier, 

- une seconde entite informatique propre a stocker un second fichier, et 

des moyens de communications entre les premiere et seconde unites informatiques, 
caracterisee en ce que Tune des entites au moins comporte une memoire propre a stocker le 
30 produit programme d'ordinateur selon la revendication 26, pour la recherche d'extrait commun 
entre les premier et second fichiers. 
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30. Installation selon la revendication 29, caracterise en ce que l'entite stockant le produit 
programme d'ordinateur est agencee pour effectuer une mise a jour a distance de Pun des 
premier et second fichiers par rapport a l'autre des premier et second fichiers. 
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U (t) = f 4 sin(7tFe(t - 4Te)) / (7tFe(t - 4Te)) 



FIG. 10 



1er depot 



10/17 



P1(f,3) = P0(f,3) 

4 



F= Fe/8: P1(Fe/8,3) = P0(Fe/8,3) = 1/4 




Fe/2 



FiGr12A- 



Fe/2(n-1) 

FTC3TT2B" 



131 




132 
/ 




.Shann_onJ\ 



132' 
_Z 



f n = f(nTe)= f(n/Fe) 

T 



135 



133 
.J. 



135 



'L. 



Shannon 



" r 



133' 
_/ 



R(f) = Filtre(f) x F(f) 



134 

_/ 



'n/k 



FUG. 13 



1er depot 



11/17 

I Emoy(K,f) | 



1,1 




FIG. 14 



|Filtre(5,f)| 




FIG. 15 



1 er depot 



12/17 



H 1 



1 I I 



2 I I 

1 1 a 
1 1 i 
I 
i 



1 



eg 



I 1 I 
I 1 1 



1111 
I I I 1 
§ II 1 
I i I 1 



I I 1 
I i 1 



n 1 1 
a 1 1 
i I i 



! 1 
I I 



I 1 
I I 
I I 



I I 



I I 



1 I 
I ! 
I I 

-+4- 
1 1 
! I 
] I 

++- 



I ! 
1 S 
I I 
I I 
1 I 
I I 
I I 
I I 
I I 
I I 
I I 
1 I 
I 1 
I I 
1 I 
I 1 
I I 
I I 



I I 
I i 
I I 

-1 — I- 
I 1 
I S 
I 1 

4 — I- 



1 1 

I 1 

I 1 

S I 

I I 

I I 

1 I 

1 I 

1 I 

I 1 



I 1 

1 I 

i I 

I I 

1 i 



I I I 

I I I I 

I II I II 

I II I II 



i i 
-i 
i 
i 
i 

4 
1 
1 
I 
I 
1 
! 



LL. 



1 er depot 

13/17 



i i 



i i 

i i 

i i 

I E 

I B 

E I 



I I 
I I 









x — 






























c: 




cz 




1 I 



1 I 

I E 

i E 

I I 



+ 

"T 
IT | 



I 

I 1 

! S 

I 1 

1 I 

I ffl 

r i 

! I 



I I 

! I 
! 1 



GO 
CD 



CO 



1 er depot 

14/17 




5.00E+08 

4.50E+08 

4.00E+08 

3.50E+08 

3,00E+08 

2.50E+08 

2.00E+08 

1.50E+08 

1.00E+08 • 

5.00E+07 • 

O.OOE+00 • 



(NOMBRE DE COMPARAISONS) 












































\ TOTAL 3 j 


/y T ° T ' AL2 


■ » - - - 

' < 1 * » > M I M U t I i 1 I U 1 1 1 rt Ull'imiii 


TOTAL 1 

t — 

* 

".."*•■■"--/■-»... . I 

i" rr-i — r r t i i i ii i i - < i ■ **. ".■** St in 1 1 



1- fe * k n * -J f <P <§> f # # * * * »J <p <?> # <? * 

RAPPORT D'INDEX k 

FIG. 17 




FIG. 18 



1er depot 



15/1 




- - Consultation des extraits communs trouvls 



Nombre d'extraits trouves |3 
Mumero d'extrait trouve JT" 



Premier 
Allera 



n reaa n 



Suivant 



Dernier 



T aide de I'extrait commun j^ 6 



Tailfe cumulee des entrails utilisables pour regenerer le fichier 1 h partir du Rchier 2 (octets) jo 
Tri par ordre croissant de debut d'extrait swle fichier 1 I Tri par ordre croissant de debut d'extrait sur b fichier 2 j 



Creation de fichier 
archive de resultats de 
recherche 



Selection de fichier 
archive de resultats de 
recherche 



Parametresduler fichier ~ 



Norn :JLA CONSTITUTION DE~ Repertoire :)dADocHTML\ 



Taiife (octets): 35390 



Position de la lere donnee affichee dans la fenetre : [21 9 



Fenetre d'affichage du 1er fichier : 
P* Modetexte 
F" Mode hexadecimal 
I"" Mode unsigned char 
if Mode signed char 



<META content-"text/html; CHARSET-iso-8859-1 " http-equiv=Content-Type> 3 
<META content-"MSHTML 5.00.2614.3500" name=GENERATOR> 
<META 

content*' 'Assernblee nationale : constitution, procedure parlementaire.. processus lec 
name=description> 



~ Parametres du 2nd fichier- - 



Nom : [rIgLEMENTDE L'ASS Repertoire :Jb AD ocHTML\ 
Position de !a 1 ere donnee affichee dans Ja fenetre : 



Taiile (octets): 213275 



208 



Fenetre cTaffichage du 2nd fichier : 
H? Modetexte 
J" Mode hexadecimal 
P Mode unsigned char 
V Mode signed char 



E</TITLE> ~~ ' ~ ~" ' ' — 

<META content= n text/html; CHARS ET=isa-8859-1" http-equiv-Content-T^ |96 

<META content="MSHTML 5.00.2G14.3S00" name=GENERATOR> 

<META 

contenb="AssembIee nationale : constitution, procedure parlementaire processus lec 
name=description> 

V. 





Temps ecoule 00 h 00 m 01 s 



OK 



Abandon 



N ombre d'extraits trouves pT 
* E valuations — — 



Avancement % p2 



| Dureede recherche ]00h 00 m02 s Temps restant JooTTooItToT^ 
Vitesse de recherche en Mega comparisons par seconds 17721 .53 



FIG. 19B 
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Precision de la recherche {Hz}: 
Bruit (en % du niveau maxi} : 



- Parametres de recherche 



Dureerminimaied'eMlraitts'ea): j r 20 ' Debut de recherche] 



OK 



Cancel 





'-Consultation des exttait 


s communs trouves- -—■ - — 


_.. ._ .. -j 


Nombre d'extraits trouves jo3 


Premier 


Precedent J Suivant 


I ^. em ' er I 


N umero d'extrait trou ve 1 


Ailer a 


Duree de i'extrait courant : 


johOOmOOsOO 


Sauvegarde de signature d'extrait ] 


Duree cumulee des eatraits trouves : 


0h37m15s60 



Creation de fichier 
archive de resultats de 
recherche 



Selection de fichier 
archive de resultats de 
recherche 



— Parametres de Penregistrement a analyser — 



Norn : [i#M ! 20040303 J93500F Repertoire: J5?a!^^ 
References : 



Duree: 1 hOOrnOOsOO 



Source audio: 
RFM 

Reception Paris. 103,9 MHz 
Format de numeration audio: 



$f!| Selection de fichier wave 



Selection de signature 



Duree de I'extrait trouve : 



De: 



••Parametres de la base d'enregistrements de reference 



Nombre d'enregistrements :|244 



Precedent [ Suivant j Dernier | 

Variables "Duree cumulee de la base : |41 hWmUTST 



"Terrner 



Norn : 1 01 -Le jazz et la java,wav Repertoire: I D:\AudfoWavdSCIaude NougaroS Duree: 
References: 



0h02m26s40 



Format de numeration audio: 

PCM 44,1 00 kHz; 1 6 bits; Stereo 

Plage horaire de la signature numerique: 
Debut: Oh 00 m 00 $00 



.if! Selection de ffchiers wave 

1 
I 



Creation de signature 



— Selection de signature 



Duree de I'extrait trouve : |~ 



De 



a: 



Selection de librairie de 
signatures 



FIG. 19C 
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;' 'j Precision de la recherche (Hz) * 



Duree/mintmale d'eKtraitJ^ec.^: ;j20 »'j ^ ^pebut ^e're^herche | V'j " : feance( 



Bruit (en %^Cr;nlVeau ma>ri);;' : ' jo 



''•••:^*7fA7; ; "K^ y-~~-vL..:.,^ . i :.:^-.,^L „ ....... 

f ;i^bmbre d'extraits lirouves; i{B3 . ; ' '.^f^ . ' .' : ' Premier , " j • ; _'£r.eceddnt " j : ; 1 Suiyarit ■ jj ]> '"' Degief jj ■ ' l 

1 Allera J i' , Duree de |'e^rait { cdUrant '"jbTToOnffe s T i5o'^| l 
• • J,' : ' : :;/ vV ; Puree cumules de^extiait^Uouves 'A |0 Hi37;m 1 5 s 60< . ... 



! i| ( '5'Wurfiero d'ekiraiUrqu^eh 



. r ^^j_^i^ 

., ; 5 .. - : >i; ; .^...::> H;':!^'-f;:L.. ; ;-„•:..;•. ■,i-;.;ii;j j;! ; ; ! ';.! , T- . jl::;^-^!: > f^: - ; -i - ; ^ 

' Veferences: ip(fc6adidipt7 ! < t . - r~^~T~t » . , j r ; , ? . , , : 



.'■ Creation de f ichieV' i-' , j 
' archive de reWltaU' de i] .'. 
'iecfterehie ■:" :4l 



" J- jSeleciio^vde tichteh; ; ; 
.archivejde resultats de . 

: ^ ; v;, ; : : -«1f#Hlr.cfj6-J. 



00. 



j " T , i"> I' \. 



UK 



Reception' Paris 103,9 WHh ' ' ' / ^. ' ' , / , ' '* * *' r" ' f * ' III i « i< 

. . *.:-v 'H^-'-lv"' = n • '> : K!V V; ;, 'v' v Creatibn.de signature; . \p 

Fprmatde numeruatiph audio! • .!'».!«■;. 1 .'"!'') Z 1 *' ' n' 1 -,''.! ;'* " u S ' A 

-. •/■••!' . ; • ' ; :* • 5 5 v -; ; v'- : - ?1 - /..'•''« . , m^-Iv'"' ! ' ;? :Sefedtidn;de siqhalure :i ! : 



|v ; f iSl' ^^ejeetiop de":toiier ^laye^J | 




> 1 ' 

r'r-i-^v'rr -^fi— tt. Pdrarnetres.de. la'baseid'e'nreglstfements de refere^e'^^/Tt^,'' 



"i^dmlDr^ tfehreg^ j-; . , Pje6e^nj|»| >i ' i;:;^SMiv^t- ■ -j : ; lb Dernier-' ; J, ' : <> I \ . 

:i: t^umeip;^ enregistremehi .: iAiieka;' f ■ " Feriniiirs ■ ' j ' : .Variableg •' ] .purge- c urnulee' de! la base 

^om-joi Jazz.wavi ,« ' " u 1 ^ 1 Repertoire: Duree ' jo'h O2'rn26s40 ' 



, I'Refer^rices'': 



Format de^.numerisatidn audio: \>» 



PlSge'hora^ire-de la- ; §iqnatur^ hurh#kjuei! V 'S r; ;J v.''''' j'lV'-"^ - : ;; " ; ' '-' i» ; ;" f;i !i ; -' • •••••.o-;j^>(.-' ,, ; ue wn 



fHj :]Selectibh : cie:fichierrWaY 



Creation de 5 signature " : 




FIG. 19C 



regue le 17/06/04 
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i Precision de ia recherche (H z}: 
| 8 ruit (en X du niveau maxij : 



~ Parametres de recherche 



Duree minimale d'extrait (sec.]: 120 



Debut de recherche j 



OK 



Cancel 



N ombre d'extraits trouves p3 
Numero d'extrait trouve jl 
Sauvegarde de signature d'extrait j 



-Consultation des extraits communs trouves- 
Premier 



Precedent 



Suivant 



Dernier 



Aller a 



Duree de i'extrait courant : j|0 h 00 m 00 s 00 



Duree cumulee des extraits trouves : |0 h 37 m 1 5 s 60 



Creation de ftchrer 
archive de resultats de 
recherche 



Selection de fichier 
archive de resultats de 
recherche 



-Parametres de I'enregistrement a analyser- 



Norn : J FM 20040303 J)S35W Repertoire: jD:\AudioRadio\FM\ 
References : 



Duree: jl h 00 m 00 s 00 



Source audio: 
FM 

Reception Paris. 103,9 MHz 
Format de numeration audio: 



j&il Selection de fichier wave 



Creation de signature 



Selection de signature j j 



Duree de i'extrait trouve : [" 



De: 



a: 



- Parametres de la base d'enregistrements de reference - 



Nombre d'enregistrements :]244 



Premier ] 



Precedent j Suivant ] Dernier j 



Numero d'enregistrement : ]1 
Nom:[oY-Jazz wav 
References : 



Aller a 



Fermer 



Repertoire : D:\AudioWave\Claude\ 



Variables j Duree cumulee de la base : jS h 31 m 1 4 s 20 
Duree : jOh 02 m 26 s 40 



Format de numeration audio: 

PCM 44.100 kHz; 16 bits; Stereo 

Plage horaire de la signature numerique; 
Debut: Oh 00 m 00 s 00 



; M Selection de fichiers wave 
3 c jeat' Q n de signature 



Selection de signature 



Duree de i'extrait trouve : [" 



De: 



Selection de fibrafrie de 
signatures 



FIG. 19C 
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